Wie kombiniere ich Regressionsmodelle?


8

Angenommen, ich habe drei Datensätze der Größe :n

y1 = Größe von Menschen nur aus den USA

y2 = Körpergröße von Männern aus der ganzen Welt

y3 = von Frauen aus der ganzen Welt

Und ich baue für jedes ein lineares Modell mit den Faktoren , :xii=1,...,k

y^j=β0+β1x1+β2x2+ϵj

mit mit den üblichen Eigenschaften für OLS. Und ich kann einen Faktor in mehr als einer Regression verwenden. ϵxi


Meine Frage ist: Wie könnte ich die Regressionen so kombinieren, dass ich Schätzungen erhalten kann für:

y12 = Größe der Männer nur aus den USA

y13 = Größe von Frauen nur aus den USA

für die ich keine Daten habe


Ich dachte vielleicht an eine Art Gewichtung:

y^12=w1y^1+(1w1)y^2

aber dann würde ich nicht wissen, was ich für .w1


1
Ich habe nichts Festes genug, um eine Antwort zu sein, aber als Kommentar: Das erste, was mir in den Sinn kommt, ist die Verwendung einer einzelnen hierarchischen (gemischten) Regression. Aber ich kann wirklich nicht herausfinden, was die zufälligen Effekte sein würden, also würde es vielleicht nicht funktionieren. Ich dachte, ich würde die Idee da rauswerfen.
Wayne

Danke für den Vorschlag. Ja, es scheint, dass Sie für das hierarchische Modell dies für die tun müssten , nein? y12
J4y

Mein erster Gedanke war auf y mit einem Abfangen durch Sex - so etwas wie height ~ f1 + f2 + f3 + (1 | sex)im R-Paketlmer
Wayne

Antworten:


1

Es ist nicht klar, ob Sie Schätzungen der Körpergröße für jeden einzelnen Mann und jede einzelne Frau wünschen (eher ein Klassifizierungsproblem) oder die Höhenverteilung jedes Geschlechts charakterisieren möchten. Letzteres werde ich annehmen. Sie geben auch nicht an, welche zusätzlichen Informationen Sie in Ihrem Modell verwenden, daher beschränke ich mich darauf, den Fall zu behandeln, in dem Sie nur über Höhendaten (und Geschlechtsdaten bei Nicht-US-Bürgern) verfügen.

Ich empfehle, nur eine Mischung von Verteilungen an die Höhendaten aus den USA anzupassen , da die Höhenverteilungen bei Männern und Frauen ziemlich unterschiedlich sind. Dies würde die Parameter von zwei Verteilungen schätzen, die, wenn sie summiert werden, die Variation in den Daten am besten beschreiben. Die Parameter dieser Verteilungen (Mittelwert und Varianz, da eine Gaußsche Verteilung gut funktionieren sollte) geben Ihnen die Informationen, nach denen Sie suchen. Die R-Pakete mixtoolsund mixdistlassen Sie dies tun; Ich bin mir sicher, dass es noch viel mehr gibt.

Diese Lösung mag seltsam erscheinen, da sie alle Informationen von außerhalb der USA auslässt, bei denen Sie das Geschlecht und die Größe jedes Einzelnen kennen. Aber ich denke, es ist gerechtfertigt, weil:

1) Wir haben eine sehr starke vorherige Erwartung, dass Männer im Durchschnitt größer sind als Frauen. Die Wikipedia- Liste der durchschnittlichen menschlichen Körpergröße weltweit zeigt nicht einmal ein Land oder eine Region, in der Frauen größer sind als Männer. Die Identität der Verteilung mit der größeren mittleren Höhe ist also nicht wirklich zweifelhaft.

2) Die Integration spezifischerer Informationen aus den Daten außerhalb der USA wird wahrscheinlich die Annahme beinhalten, dass die Kovarianz zwischen Geschlecht und Größe außerhalb der USA dieselbe ist wie innerhalb. Dies ist jedoch nicht ganz richtig - dieselbe Wikipedia-Liste zeigt, dass das Verhältnis von männlicher zu weiblicher Größe zwischen ungefähr 1,04 und 1,13 variiert.

3) Ihre internationalen Daten sind möglicherweise viel komplizierter zu analysieren, da Menschen in verschiedenen Ländern ebenfalls große Unterschiede in der Höhenverteilung aufweisen. Möglicherweise müssen Sie daher in Betracht ziehen, Mischungen von Verteilungsmischungen zu modellieren. Dies mag auch in den USA zutreffen, ist jedoch wahrscheinlich weniger problematisch als ein Datensatz, der niederländische (mittlere Größe: 184 cm) und indonesische (mittlere Größe: 158 cm) umfasst. Und das sind Durchschnittswerte auf Länderebene. Subpopulationen unterscheiden sich in gleichem Maße.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.