Als «multicollinearity» getaggte Fragen

Situation, in der eine starke lineare Beziehung zwischen Prädiktorvariablen besteht, so dass ihre Korrelationsmatrix (fast) singulär wird. Dieser "schlechte Zustand" macht es schwierig, die einzigartige Rolle zu bestimmen, die jeder der Prädiktoren spielt: Schätzungsprobleme treten auf und Standardfehler werden erhöht. Bivariat sehr hoch korrelierte Prädiktoren sind ein Beispiel für Multikollinearität.

9
Gibt es eine intuitive Erklärung, warum Multikollinearität ein Problem bei der linearen Regression ist?
Das Wiki diskutiert die Probleme, die auftreten, wenn Multikollinearität ein Problem in der linearen Regression ist. Das Grundproblem ist, dass Multikollinearität zu instabilen Parameterschätzungen führt, was es sehr schwierig macht, die Auswirkung unabhängiger Variablen auf abhängige Variablen zu bewerten. Ich verstehe die technischen Gründe für die Probleme (möglicherweise kann , …

9
Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests?
Warum ist es bei einer multiplen linearen Regression möglich, eine hochsignifikante F-Statistik (p &lt;0,001) zu erhalten, die jedoch bei allen t-Tests des Regressors sehr hohe p-Werte aufweist? In meinem Modell gibt es 10 Regressoren. Einer hat einen p-Wert von 0,1 und der Rest liegt über 0,9 Informationen zur Behebung dieses …

1
Welche Korrelation macht eine Matrix singulär und was sind Implikationen von Singularität oder Fast-Singularität?
Ich mache einige Berechnungen mit verschiedenen Matrizen (hauptsächlich in der logistischen Regression) und bekomme häufig den Fehler "Matrix ist singulär", wo ich zurückgehen und die korrelierten Variablen entfernen muss. Meine Frage hier ist, was würden Sie als "hoch" korrelierte Matrix betrachten? Gibt es einen Korrelationsschwellenwert, um dieses Wort darzustellen? Wie …


6
Warum wird Multikollinearität in der modernen Statistik / im maschinellen Lernen nicht geprüft?
In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu prüfen, ob Features korreliert sind überhaupt. Warum machen wir das?

2
Werden nicht stark korrelierte Variablen in zufälliger Gesamtstruktur Genauigkeit und Feature-Auswahl verzerren?
Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen? Beispielsweise gibt es zwei Informationssätze (A, …

3
Welchen
Ich versuche, Varianzinflationsfaktoren mithilfe der vifFunktion im R-Paket zu interpretieren car. Die Funktion druckt sowohl eine verallgemeinerte und auch GVIF 1 / ( 2 ⋅ df ) . Laut der Hilfedatei dieser letztere WertVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Um die Dimension des Vertrauensellipsoids anzupassen, gibt die Funktion auch GVIF ^ [1 / (2 * …

3
Wie gehe ich bei der Variablenauswahl mit Multikollinearität um?
Ich habe einen Datensatz mit 9 kontinuierlichen unabhängigen Variablen. Ich versuche, unter diesen Variablen auszuwählen, um ein Modell an eine einzelne prozentuale (abhängige) Variable anzupassen Score. Leider weiß ich, dass es ernsthafte Kollinearität zwischen mehreren Variablen geben wird. Ich habe versucht, die stepAIC()Funktion in R für die Variablenauswahl zu verwenden, …

3
Wie kann man den Unterschied zwischen linearen und nichtlinearen Regressionsmodellen erkennen?
Ich habe den folgenden Link zur nichtlinearen Regression SAS Non Linear gelesen . Mein Verständnis beim Lesen des ersten Abschnitts "Nichtlineare Regression vs. Lineare Regression" war, dass die folgende Gleichung tatsächlich eine lineare Regression ist. Ist das richtig? Wenn ja warum? y= b1x3+ b2x2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + …

2
Die Kollinearitätsdiagnose ist nur dann problematisch, wenn der Interaktionsterm enthalten ist
Ich habe eine Regression für US-Grafschaften durchgeführt und überprüfe die Kollinearität meiner "unabhängigen" Variablen. Belsley, Kuh und Welschs Regressionsdiagnostik schlagen vor, den Bedingungsindex und die Varianzzerlegungsproportionen zu untersuchen: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct …

5
Wie kann Multikollinearität in einem gemischten linearen Modell getestet und vermieden werden?
Ich verwende derzeit einige lineare Modelle mit gemischten Effekten. Ich benutze das Paket "lme4" in R. Meine Modelle haben die Form: model &lt;- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Bevor ich meine Modelle ausführte, überprüfte ich die mögliche Multikollinearität zwischen Prädiktoren. Ich habe das gemacht von: …

2
Ist PCA unter Multikollinearität instabil?
Ich weiß, dass in einer Regressionssituation, wenn Sie eine Reihe von stark korrelierten Variablen haben, dies normalerweise "schlecht" ist, weil die geschätzten Koeffizienten instabil sind (Varianz geht gegen Unendlich, Determinante gegen Null). Meine Frage ist, ob diese "Bösartigkeit" in einer PCA-Situation bestehen bleibt. Werden die Koeffizienten / Belastungen / Gewichte …


1
Gibt es einen Grund, ein bestimmtes Maß an Multikollinearität zu bevorzugen?
Bei der Arbeit mit vielen Eingabevariablen geht es uns häufig um Multikollinearität . Es gibt eine Reihe von Maßstäben für Multikollinearität, mit denen Multikollinearität erkannt, überlegt und / oder kommuniziert wird. Einige allgemeine Empfehlungen sind: Das Mehrfache für eine bestimmte Variable R2jRj2R^2_j Die Toleranz für eine bestimmte Variable 1 - …

1
Wie gehe ich mit hoher Korrelation zwischen Prädiktoren bei multipler Regression um?
Ich habe einen Verweis in einem Artikel gefunden, der wie folgt lautet: Nach Tabachnick &amp; Fidell (1996) sollten die unabhängigen Variablen mit einer bivariaten Korrelation von mehr als 0,70 nicht in die multiple Regressionsanalyse einbezogen werden. Problem: Ich habe in einem Design mit mehreren Regressionen 3 Variablen verwendet, die&gt; .80 …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.