Ich war mit den anderen Antworten in den Kommentaren nicht einverstanden, daher ist es nur fair, dass ich meine eigenen gebe. Sei die Antwort (gute / schlechte Konten) und die Kovariaten.X.Y.X.
Für die logistische Regression lautet das Modell wie folgt:
Log( p ( Y.= 1 | X.= x )p ( Y.= 0 | X.= x )) =α+ ∑ki = 1xichβich
Überlegen Sie, wie die Daten gesammelt werden könnten:
- Sie könnten die Beobachtungen zufällig aus einer hypothetischen "Population" auswählen.
- Sie können die Daten basierend auf auswählen und sehen, welche Werte von auftreten.Y.X.Y
Beide sind für das obige Modell in Ordnung, da Sie nur die Verteilung von modellieren . Diese würden als prospektive Studie bezeichnet .Y|X
Alternative:
- Sie können die Beobachtungen basierend auf auswählen (sagen wir jeweils 100) und die relative Prävalenz von (dh Sie schichten auf ). Dies wird als retrospektive oder Fall-Kontroll-Studie bezeichnet .X Y.YXY
(Sie können die Daten auch basierend auf und bestimmten Variablen von auswählen : Dies wäre eine geschichtete Fall-Kontroll-Studie, deren Arbeit viel komplizierter ist, daher werde ich hier nicht darauf eingehen.)X.YX
Aus der Epidemiologie ergibt sich ein schönes Ergebnis (siehe Prentice und Pyke (1979) ), dass für eine Fall-Kontroll-Studie die Schätzungen der maximalen Wahrscheinlichkeit für durch logistische Regression ermittelt werden können, wobei das prospektive Modell für retrospektive Daten verwendet wird.β
Wie ist das für Ihr Problem relevant?
Wenn Sie in der Lage sind, mehr Daten zu sammeln, können Sie sich einfach die fehlerhaften Konten ansehen und trotzdem die logistische Regression verwenden, um die zu schätzen (aber Sie müssten die anpassen , um die Über- berücksichtigen zu berücksichtigen) Darstellung). Angenommen, es kostet 1 US-Dollar für jedes zusätzliche Konto. Dann ist dies möglicherweise kostengünstiger, als wenn Sie nur alle Konten betrachten. αβiα
Wenn Sie jedoch bereits über ALLE möglichen Daten verfügen, macht eine Schichtung keinen Sinn: Sie würden einfach Daten wegwerfen (schlechtere Schätzungen abgeben) und dann das Problem haben, zu schätzen .α