Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Die Ridge-Regression schätzt die Parameter in einem linearen Modell \ mathbf y = \ mathbf X \ boldsymbol \ beta nach \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ …
Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R …
Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen? Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen Verzerrung der Schätzung zu einer Verringerung …
Ich bin von der Idee der James-Stein-Schrumpfung angetan (dh dass eine nichtlineare Funktion einer einzelnen Beobachtung eines Vektors möglicherweise unabhängiger Normalen ein besserer Schätzer für die Mittelwerte der Zufallsvariablen sein kann, wobei "besser" durch Quadratfehler gemessen wird ). Ich habe es jedoch noch nie in der angewandten Arbeit gesehen. Klar …
Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? ℓ1ℓ1\ell_1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es oft unpraktisch ist, den Parameter durch Kreuzvalidierung oder Bootstrap zu …
Das Wort Schrumpfung wird in bestimmten Kreisen häufig verwendet. Aber was Schrumpfung ist, scheint es keine klare Definition zu geben. Wenn ich eine Zeitreihe (oder eine Sammlung von Beobachtungen eines Prozesses) habe, auf welche Weise kann ich eine Art empirischen Schrumpfens an der Reihe messen? Über welche verschiedenen Arten der …
Zou u.a. "Auf den" Freiheitsgraden "des Lassos" (2007) zeigen, dass die Anzahl der Koeffizienten ungleich Null eine unvoreingenommene und konsistente Schätzung für die Freiheitsgrade des Lassos ist. Es scheint mir ein wenig eingängig zu sein. Angenommen, wir haben ein Regressionsmodell (wobei die Variablen den Mittelwert Null haben). y=βx+ε.y=βx+ε.y=\beta x + …
Angenommen , ich habe zwei Schätzern ß 1 und β 2 , die konsistente Schätzer des gleichen Parameters β 0 und so , dass √βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) mitV1≤V2V1≤V2V_1 \leq V_2in dem psd Sinne. Somit asymptotisch β 1ist effizienter als β 2. Diese …
In der Zwischenzeit studiere ich LASSO (Operator für geringste absolute Schrumpfung und Auswahl). Ich sehe, dass der optimale Wert für den Regularisierungsparameter durch Kreuzvalidierung ausgewählt werden kann. Ich sehe auch in der Gratregression und vielen Methoden, die Regularisierung anwenden, dass wir CV verwenden können, um den optimalen Regularisierungsparameter zu finden …
Jede Aussage, die ich vom James-Stein-Schätzer finde, geht davon aus, dass die zu schätzenden Zufallsvariablen dieselbe (und Einheits-) Varianz haben. Alle diese Beispiele erwähnen jedoch auch, dass der JS-Schätzer verwendet werden kann, um Mengen zu schätzen, die nichts miteinander zu tun haben. Das Wikipedia-Beispiel ist die Lichtgeschwindigkeit, der Teekonsum in …
Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell …
Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …
Angenommen, ich habe Beobachtungen gepaart, die als für . Let und bezeichne der - ten größten beobachteten Wert von . Was ist die (bedingte) Verteilung von ? (oder gleichwertig das von )i = 1 , 2 , ... , n Z i = X i + Y i , Z …
Ich bin verwirrt über die Permutationsanalyse für die Merkmalsauswahl in einem logistischen Regressionskontext. Können Sie den zufälligen Permutationstest klar erläutern und erläutern, wie er für die Merkmalsauswahl gilt? Möglicherweise mit genauem Algorithmus und Beispielen. Wie ist der Vergleich mit anderen Schrumpfungsmethoden wie Lasso oder LAR?
Ich möchte eine hierarchische GLM schätzen, aber mit Merkmalsauswahl, um zu bestimmen, welche Kovariaten auf Bevölkerungsebene relevant sind, um sie einzubeziehen. Angenommen, ich habe GGG Gruppen mit NNN Beobachtungen und KKK möglichen Kovariaten. Das heißt, ich habe eine Entwurfsmatrix von Kovariaten , Ergebnissen . Die Koeffizienten für diese Kovariaten sind …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.