Heute habe ich eine Frage zur binomialen / logistischen Regression, die auf einer Analyse basiert, die eine Gruppe in meiner Abteilung durchgeführt hat und nach Kommentaren gesucht hat. Ich habe das folgende Beispiel zusammengestellt, um ihre Anonymität zu schützen, aber sie waren gespannt auf die Antworten.
Zunächst begann die Analyse mit einer einfachen 1 oder 0-Binomialantwort (z. B. Überleben von einer Brutzeit zur nächsten), und das Ziel bestand darin, diese Antwort als Funktion einiger Co-Variablen zu modellieren.
Für einige Personen standen jedoch mehrere Messungen einiger Co-Variablen zur Verfügung, für andere jedoch nicht. Stellen Sie sich zum Beispiel vor, die Variable x ist ein Maß für die Stoffwechselrate während der Wehen, und die Anzahl der Nachkommen variiert individuell (z. B. wurde die Variable x dreimal für Individuum A gemessen, jedoch nur einmal für Individuum B). Dieses Ungleichgewicht ist nicht auf die Stichprobenstrategie der Forscher an sich zurückzuführen, sondern spiegelt die Merkmale der Population wider, aus der sie Stichproben entnommen haben. Einige Menschen haben mehr Nachkommen als andere.
Ich sollte auch darauf hinweisen, dass die Messung der binomialen 0 \ 1-Reaktion zwischen Arbeitsereignissen nicht möglich war, da das Intervall zwischen diesen Ereignissen ziemlich kurz war. Stellen Sie sich erneut vor, die betreffende Art hat eine kurze Brutzeit, kann aber während der Saison mehr als einen Nachwuchs zur Welt bringen.
Die Forscher entschieden sich für ein Modell, bei dem sie den Mittelwert der Variablen x als eine Kovariate und die Anzahl der Nachkommen, die ein Individuum zur Welt brachte, als eine weitere Kovariate verwendeten.
Nun, ich war aus mehreren Gründen nicht an diesem Ansatz interessiert
1) Den Durchschnitt von x zu nehmen bedeutet, Informationen über die innerindividuelle Variabilität von x zu verlieren.
2) Der Mittelwert ist selbst eine Statistik. Wenn wir ihn also in das Modell einfügen, erstellen wir Statistiken über Statistiken.
3) Die Anzahl der Nachkommen eines Individuums ist im Modell enthalten, wird aber auch zur Berechnung des Mittelwerts der Variablen x verwendet, was meiner Meinung nach Probleme verursachen könnte.
Meine Frage ist also, wie die Leute diese Art von Daten modellieren würden.
Im Moment würde ich wahrscheinlich separate Modelle für Personen mit einem Nachwuchs ausführen, dann für Personen mit zwei Nachkommen usw. Außerdem würde ich nicht den Mittelwert der Variablen x verwenden und nur die Rohdaten für jede Geburt verwenden, aber ich bin es nicht überzeugt, dass dies auch viel besser ist.
Vielen Dank für Ihre Zeit
(PS: Ich entschuldige mich dafür, dass es eine ziemlich lange Frage ist, und ich hoffe, dass das Beispiel klar ist)