Diese Frage ist insofern interessant, als sie Zusammenhänge zwischen Optimierungstheorie, Optimierungsmethoden und statistischen Methoden aufdeckt, die jeder fähige Benutzer von Statistiken verstehen muss. Obwohl diese Zusammenhänge einfach und leicht zu erlernen sind, sind sie subtil und werden oft übersehen.
Um einige Ideen aus den Kommentaren zu anderen Antworten zusammenzufassen, möchte ich darauf hinweisen, dass "lineare Regression" nicht nur theoretisch, sondern in der Praxis zu nicht eindeutigen Lösungen führen kann.
Fehlende Erkennbarkeit
Das erste ist, wenn das Modell nicht identifizierbar ist. Dies schafft eine konvexe, aber nicht streng konvexe Zielfunktion, die mehrere Lösungen hat.
Betrachten wir zum Beispiel Regression gegen und (mit einem Achsenabschnitt) für die Daten . Eine Lösung ist . Ein anderes ist . Um zu sehen, dass es mehrere Lösungen geben muss, parametrisieren Sie das Modell mit drei Realparametern und einem Fehlerterm im Formularzx( x , y , z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) , z = 1 + y z = 1 - x ( λ , μ , ν ) εy( x , y, z)( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 )z^= 1 + yz^= 1 - x( λ , μ , ν)ε
z= 1 + μ + ( λ + ν−1)x+(λ−ν)y+ε.
Die Summe der Quadrate der Residuen vereinfacht sich zu
SSR=3μ2+24μν+56ν2.
(Dies ist ein Grenzfall für objektive Funktionen, die in der Praxis auftreten, wie der unter Kann der empirische Hessian eines M-Schätzers unbestimmt sein? Beschriebene , in dem Sie detaillierte Analysen lesen und Diagramme der Funktion anzeigen können.)
Da die Koeffizienten der Quadrate ( und ) positiv sind und die Determinante positiv ist, ist dies eine positiv-semidefinite quadratische Form in . Es wird minimiert, wenn , aber kann einen beliebigen Wert haben. Da die Zielfunktion nicht von abhängt , gilt dies auch für den Gradienten (oder andere Ableitungen). Daher setzt jeder Algorithmus für den Gradientenabstieg - wenn er keine willkürlichen Richtungsänderungen vornimmt - den Wert der Lösung von auf einen beliebigen Startwert.56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563×56−(24/2)2=24(μ,ν,λ)μ = ν= 0λSSRλλ
Auch wenn kein Gefälle verwendet wird, kann die Lösung variieren. In R
zum Beispiel gibt es zwei einfache, gleichwertige Möglichkeiten , dieses Modell zu spezifizieren: wie z ~ x + y
oder z ~ y + x
. Die erste ergibt , die zweite ergibt . z =1+yz^= 1 - xz^= 1 + y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
(Die NA
Werte sollten als Nullen interpretiert werden, jedoch mit der Warnung, dass mehrere Lösungen vorhanden sind. Die Warnung war möglich, da vorläufige Analysen R
unabhängig von der Lösungsmethode durchgeführt wurden. Eine Gradientenabstiegsmethode würde wahrscheinlich nicht die Möglichkeit mehrerer Lösungen erkennen.) obwohl ein guter Sie vor einer gewissen Ungewissheit warnen würde, dass das Optimum erreicht wurde.)
Parameterbeschränkungen
Strikte Konvexität garantiert ein einzigartiges globales Optimum, vorausgesetzt, der Bereich der Parameter ist konvex. Parametereinschränkungen können nicht konvexe Domänen erstellen und zu mehreren globalen Lösungen führen.
Ein sehr einfaches Beispiel liefert das Problem der Schätzung eines "Mittelwerts" für die Daten , die der Einschränkung unterliegen . Dies modelliert eine Situation, die im Gegensatz zu Regularisierungsmethoden wie Ridge Regression, Lasso oder Elastic Net steht: Es besteht darauf, dass ein Modellparameter nicht zu klein wird. (Auf dieser Website wurden verschiedene Fragen zur Lösung von Regressionsproblemen mit solchen Parameterbeschränkungen gestellt, die zeigen, dass sie in der Praxis auftreten.)- 1 , 1 | μ | ≥ 1 / 2μ- 1 , 1| μ | ≥1 / 2
Für dieses Beispiel gibt es zwei Lösungen mit den kleinsten Quadraten, die beide gleich gut sind. Sie werden durch Minimieren von unter der Bedingung . Die beiden Lösungen sind . Es kann mehr als eine Lösung geben, da die Parameterbeschränkung die Domäne nicht konvex macht:| μ | ≥ 1 / 2 μ = ± 1 / 2 μ ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )( 1 - μ )2+ ( - 1 - μ )2| μ | ≥1 / 2μ=±1/2μ∈(−∞,−1/2]∪[1/2,∞)
Die Parabel ist der Graph einer (streng) konvexen Funktion. Der dicke rote Teil ist der Teil, der auf die Domäne von : Er hat zwei niedrigste Punkte bei , wobei die Summe der Quadrate beträgt . Der Rest der Parabel (gepunktet dargestellt) wird durch die Beschränkung entfernt, wodurch sein eindeutiges Minimum von der Betrachtung ausgeschlossen wird.& mgr; = ± 1 / 2 5 / 2μμ=±1/25/2
Eine Gradientenabstiegsmethode würde, wenn sie nicht bereit wäre, große Sprünge zu machen, wahrscheinlich die "eindeutige" Lösung finden wenn sie mit einem positiven Wert beginnt, und andernfalls würde sie die "eindeutige" Lösung finden wenn mit einem negativen Wert begonnen wird.μ = - 1 / 2μ=1/2μ=−1/2
Dieselbe Situation kann bei größeren Datensätzen und in höheren Dimensionen auftreten (dh, es müssen mehr Regressionsparameter angepasst werden).