Es ist nicht klar, ob Sie Schätzungen der Körpergröße für jeden einzelnen Mann und jede einzelne Frau wünschen (eher ein Klassifizierungsproblem) oder die Höhenverteilung jedes Geschlechts charakterisieren möchten. Letzteres werde ich annehmen. Sie geben auch nicht an, welche zusätzlichen Informationen Sie in Ihrem Modell verwenden, daher beschränke ich mich darauf, den Fall zu behandeln, in dem Sie nur über Höhendaten (und Geschlechtsdaten bei Nicht-US-Bürgern) verfügen.
Ich empfehle, nur eine Mischung von Verteilungen an die Höhendaten aus den USA anzupassen , da die Höhenverteilungen bei Männern und Frauen ziemlich unterschiedlich sind. Dies würde die Parameter von zwei Verteilungen schätzen, die, wenn sie summiert werden, die Variation in den Daten am besten beschreiben. Die Parameter dieser Verteilungen (Mittelwert und Varianz, da eine Gaußsche Verteilung gut funktionieren sollte) geben Ihnen die Informationen, nach denen Sie suchen. Die R-Pakete mixtools
und mixdist
lassen Sie dies tun; Ich bin mir sicher, dass es noch viel mehr gibt.
Diese Lösung mag seltsam erscheinen, da sie alle Informationen von außerhalb der USA auslässt, bei denen Sie das Geschlecht und die Größe jedes Einzelnen kennen. Aber ich denke, es ist gerechtfertigt, weil:
1) Wir haben eine sehr starke vorherige Erwartung, dass Männer im Durchschnitt größer sind als Frauen. Die Wikipedia- Liste der durchschnittlichen menschlichen Körpergröße weltweit zeigt nicht einmal ein Land oder eine Region, in der Frauen größer sind als Männer. Die Identität der Verteilung mit der größeren mittleren Höhe ist also nicht wirklich zweifelhaft.
2) Die Integration spezifischerer Informationen aus den Daten außerhalb der USA wird wahrscheinlich die Annahme beinhalten, dass die Kovarianz zwischen Geschlecht und Größe außerhalb der USA dieselbe ist wie innerhalb. Dies ist jedoch nicht ganz richtig - dieselbe Wikipedia-Liste zeigt, dass das Verhältnis von männlicher zu weiblicher Größe zwischen ungefähr 1,04 und 1,13 variiert.
3) Ihre internationalen Daten sind möglicherweise viel komplizierter zu analysieren, da Menschen in verschiedenen Ländern ebenfalls große Unterschiede in der Höhenverteilung aufweisen. Möglicherweise müssen Sie daher in Betracht ziehen, Mischungen von Verteilungsmischungen zu modellieren. Dies mag auch in den USA zutreffen, ist jedoch wahrscheinlich weniger problematisch als ein Datensatz, der niederländische (mittlere Größe: 184 cm) und indonesische (mittlere Größe: 158 cm) umfasst. Und das sind Durchschnittswerte auf Länderebene. Subpopulationen unterscheiden sich in gleichem Maße.