Warum liefert die Lösung mit den kleinsten Quadraten in diesem Fall schlechte Ergebnisse?

21

Auf Seite 204, Kapitel 4 von "Mustererkennung und maschinelles Lernen" von Bishop ist ein Bild zu sehen, in dem ich nicht verstehe, warum die Least-Square-Lösung hier schlechte Ergebnisse liefert:

Bildbeschreibung hier eingeben

Der vorherige Absatz befasste sich mit der Tatsache, dass Lösungen mit den kleinsten Quadraten keine Robustheit gegenüber Ausreißern aufweisen, wie Sie in der folgenden Abbildung sehen, aber ich verstehe nicht, was in der anderen Abbildung vor sich geht und warum LS dort ebenfalls schlechte Ergebnisse liefert.

Bildbeschreibung hier eingeben

classification least-squares

— Gigili
quelle

Es sieht so aus, als ob dies Teil eines Kapitels über die Unterscheidung zwischen Sätzen ist. In Ihrem ersten Diagrammpaar unterscheidet das linke Diagramm deutlich nicht gut zwischen den drei Punktmengen. Beantwortet das deine Frage? Wenn nicht, können Sie das klären?

— Peter Flom - Wiedereinsetzung von Monica

@ PeterFlom: Die LS-Lösung liefert schlechte Ergebnisse für die erste, ich möchte den Grund wissen. Und ja, es ist der letzte Abschnitt des Abschnitts über die LS-Klassifizierung, in dem das gesamte Kapitel über lineare Diskriminanzfunktionen behandelt wird.

— Gigili

6

$\geq 3$

In ESL , Abbildung 4.2 auf Seite 105, wird das Phänomen als Maskierung bezeichnet . Siehe auch ESL Abbildung 4.3. Die Lösung mit den kleinsten Quadraten ergibt einen Prädiktor für die Mittelklasse, der hauptsächlich von den Prädiktoren für die beiden anderen Klassen dominiert wird. LDA oder logistische Regression leiden nicht unter diesem Problem. Man kann sagen, dass es die starre Struktur des linearen Modells der Klassenwahrscheinlichkeiten ist (was im Wesentlichen aus der Anpassung der kleinsten Quadrate resultiert), die die Maskierung verursacht.

$-$

Edit: Maskierung lässt sich vielleicht am einfachsten für ein zweidimensionales Problem darstellen, ist aber auch im eindimensionalen Fall ein Problem, und hier ist die Mathematik besonders einfach zu verstehen. Angenommen, die eindimensionalen Eingabevariablen sind nach geordnet

x_{1} < \dots < x_{k} < y_{1} < \dots y_{m} < z_{1} < \dots < z_{n}

$x_1 < \ldots < x_k < y_1 < \ldots y_m < z_1 < \ldots < z_n$

$x$ $y$ $z$

\begin{array}{ccccccccc} 1 & \dots & 1 & 0 & \dots & 0 & 0 & \dots & 0 \\ T^{T} & 0 & \dots & 0 & 1 & \dots & 1 & 0 & \dots & 0 \\ 0 & \dots & 0 & 0 & \dots & 0 & 1 & \dots & 1 \\ x^{T} & x_{1} & \dots & x_{k} & y_{1} & \dots & y_{m} & z_{1} & \dots & z_{n} \end{array}

$\begin{array}{c|cccccccc} & 1 & \ldots & 1 & 0 & \ldots & 0 & 0 & \ldots & 0 \\ \mathbf{T}^T & 0 & \ldots & 0 & 1 & \ldots & 1 & 0 & \ldots & 0 \\ & 0 & \ldots & 0 & 0 & \ldots & 0 & 1 & \ldots & 1 \\ \hline \mathbf{x}^T & x_1 & \ldots & x_k & y_1 & \ldots & y_m & z_1 & \ldots & z_n \\ \end{array}$

$\mathbf{T}$ $\mathbf{x}$ $x$ $z$ $y$ - Klasse, die lineare Regression muss die Nullen für die beiden äußeren Klassen mit den Einsen in der Mittelklasse ausgleichen, was zu einer eher flachen Regressionslinie und einer besonders schlechten Anpassung der bedingten Klassenwahrscheinlichkeiten für diese Klasse führt. Wie sich herausstellt, dominiert das Maximum der Regressionslinien für die beiden äußeren Klassen die Regressionslinie für die Mittelklasse für die meisten Werte der Eingabevariablen, und die Mittelklasse wird von den äußeren Klassen maskiert .

Bildbeschreibung hier eingeben

$k = m = n{}$ $(\bar{x}, 1/3)$

\bar{x} = \frac{1}{3 k} (x_{1} + \dots + x_{k} + y_{1} + \dots + y_{m} + z_{1} + \dots + z_{n}) .

$\bar{x} = \frac{1}{3k}\left(x_1 + \ldots + x_k + y_1 + \ldots + y_m + z_1 + \ldots + z_n\right).$

— NRH
quelle

2

Basierend auf dem unten angegebenen Link sind die Gründe, warum die LS-Diskriminante in der oberen linken Grafik nicht gut
abschneidet, folgende: - Mangelnde Robustheit gegenüber Ausreißern.
- Bestimmte Datensätze sind für die Klassifizierung nach kleinsten Quadraten ungeeignet.
- Entscheidungsgrenze entspricht ML-Lösung unter Gaußscher Bedingungsverteilung. Binäre Zielwerte haben jedoch eine Verteilung, die weit von Gauß entfernt ist.

Siehe Seite 13 unter Nachteile der kleinsten Quadrate.

— Stat
quelle

1

Ich glaube, das Problem in Ihrer ersten Grafik wird als "Maskierung" bezeichnet und in "Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage" (Hastie, Tibshirani, Friedman, Springer 2001), S. 83-84 erwähnt.

Intuitiv (was das Beste ist, was ich tun kann) glaube ich, dass dies darauf zurückzuführen ist, dass Vorhersagen einer OLS-Regression nicht auf [0,1] beschränkt sind, sodass Sie am Ende eine Vorhersage von -0,33 haben können, wenn Sie wirklich mehr von 0 wollen. 1, was Sie im Fall von zwei Klassen verfeinern können, aber je mehr Klassen Sie haben, desto wahrscheinlicher ist es, dass diese Nichtübereinstimmung ein Problem verursacht. Ich glaube.

— Wayne
quelle

1

Das kleinste Quadrat ist abhängig von der Skalierung (da die neuen Daten eine andere Skalierung haben und die Entscheidungsgrenze verzerren). In der Regel müssen entweder Gewichtungen angewendet werden (dh Daten, die in den Optimierungsalgorithmus eingegeben werden sollen, haben dieselbe Skalierung) oder es wird eine geeignete Transformation durchgeführt (mittleres Zentrum, Protokoll (1 + Daten) ... usw.) in solchen Fällen. Es scheint, als würde Least Square perfekt funktionieren, wenn Sie es bitten, in diesem Fall eine 3-Klassifizierungsoperation durchzuführen und schließlich zwei Ausgabeklassen zusammenzuführen.

— dfhgfh
quelle