Interpretieren von Proportionen, die als unabhängige Variablen in der linearen Regression eins ergeben


12

Ich bin mit dem Konzept der kategorialen Variablen und der jeweiligen Dummy-Variablencodierung vertraut, die es uns ermöglicht, eine Ebene als Basislinie anzupassen, um Kollinearität zu vermeiden. Ich bin auch mit der Interpretation von Parameterschätzungen aus solchen Modellen vertraut: Die vorhergesagte Änderung des Ergebnisses für eine bestimmte angepasste Ebene des kategorialen Prädiktors relativ zur Basiskategorie.

Ich bin mir nicht sicher, wie ich eine Reihe unabhängiger Variablen interpretieren soll , deren Proportionen eins ergeben . Wir haben wieder Kollinearität, wenn wir alle Proportionen in das Modell einpassen, also müssten wir vermutlich eine Kategorie als Basislinie weglassen. Ich gehe auch davon aus, dass ich den Typ III SS für den Gesamttest der Signifikanz dieser Variablen betrachten würde. Wie interpretieren wir jedoch die Parameterschätzungen für diese Ebenen, die in das Modell passen, im Vergleich zu denen, die als Basis betrachtet werden?

Ein Beispiel : Auf der Ebene der Postleitzahl ist die unabhängige Variable der Anteil an metamorphem, magmatischem und sedimentärem Gestein. Wie Sie vielleicht wissen, sind dies die drei Hauptgesteinsarten, und alle Gesteine ​​werden als eine davon klassifiziert. Als solches summieren sich die Proportionen über alle drei zu 1. Das Ergebnis ist der durchschnittliche Radongehalt in einer jeweiligen Postleitzahl.

Wenn ich beispielsweise die metamorphen und magmatischen Proportionen als Prädiktoren in das Modell einpassen würde und Sediment als Basislinie belassen würde, würde ein SS F- Test vom Typ III der beiden angepassten Ebenen insgesamt anzeigen, ob der Gesteinstyp insgesamt wichtig ist Prädiktor des Ergebnisses (durchschnittlicher Radonspiegel). Dann könnte ich die einzelnen p- Werte (basierend auf der t- Verteilung) untersuchen, um festzustellen, ob sich einer oder beide Gesteinsarten signifikant von der Grundlinie unterscheiden.

Wenn es jedoch um die Parameterschätzungen geht, möchte mein Gehirn sie immer wieder nur als vorhergesagte Änderung des Ergebnisses zwischen Gruppen (Gesteinsarten) interpretieren, und ich verstehe nicht, wie ich die Tatsache berücksichtigen soll, dass sie als Proportionen passen .

β

Hat jemand eine Quelle, die die Interpretation eines solchen Modells liefert, oder könnten Sie hier ein kurzes Beispiel geben, wenn nicht?


2
(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)

1
Nein, aber ich vermute, dass dies problematisch sein wird, insbesondere weil viele der "Proportionen" tatsächlich als 0 und 1 oder als Werte nahe 0 und 1 ausgegeben wurden und daher im Wesentlichen ohnehin binär wirken. Als solches ist es wahrscheinlich, dass wir aus ihnen tatsächliche Gruppen machen (und Proportionen abschaffen), aber dies weckte immer noch mein Interesse daran, wie die richtige Interpretation hypothetisch aussehen würde.
Meg

Fair genug - das ist eine gute Frage.
whuber

2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1

2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Antworten:


8

Als Follow-up und was ich denke, ist die richtige Antwort (scheint mir vernünftig): Ich habe diese Frage auf dem ASA Connect-Listenserver veröffentlicht und die folgende Antwort von Thomas Sexton bei Stony Brook erhalten:

"Ihr geschätztes lineares Regressionsmodell sieht folgendermaßen aus:

ln (Radon) = (ein linearer Ausdruck in anderen Variablen) + 0,43 M + 0,92 I.

Dabei stellen M und I die Prozentsätze der metamorphen bzw. magmatischen Gesteine ​​in der Postleitzahl dar. Sie sind eingeschränkt durch:

M + I + S = 100

Dabei steht S für den prozentualen Anteil des Sedimentgesteins in der Postleitzahl.

Die Interpretation von 0,43 ist, dass eine Zunahme von M um einen Prozentpunkt mit einer Zunahme von 0,43 in ln (Radon) verbunden ist, wobei alle anderen Variablen im Modell festgehalten werden . Somit kann sich der Wert von I nicht ändern, und die einzige Möglichkeit, M um einen Prozentpunkt zu erhöhen, während die Bedingung erfüllt ist, besteht darin, S, die ausgelassene Kategorie, um einen Prozentpunkt zu verringern.

Natürlich kann diese Änderung nicht in Postleitzahlen auftreten, in denen S = 0 ist, aber eine Abnahme von M und eine entsprechende Zunahme von S wäre in solchen Postleitzahlen möglich. "

Hier ist der Link zum Thread ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-42ff

Ich poste dies als akzeptierte richtige Antwort, bin aber immer noch offen für weitere Diskussionen, wenn jemand etwas hinzuzufügen hat.


Ein Rat wäre, zum ASA-Thread zu gehen, da es einige Diskussionen gibt, die die hier gegebene Antwort in Frage stellen.
Maxim.K

@ Maxim.K: Beziehen Sie sich auf meinen eigenen ASA-Thread, den ich oben verlinkt habe? Wenn ja, ja, es gab viele unbeantwortete Vorbehalte, und ich bin mir immer noch nicht ganz sicher, ob die Antwort "richtig" ist (falls es überhaupt eine gibt). Aus diesem Grund habe ich das Qualifikationsmerkmal hinzugefügt: "Ich poste dies als akzeptierte richtige Antwort, bin aber immer noch offen für weitere Diskussionen, wenn jemand etwas hinzuzufügen hat."
Meg
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.