Beide Tests modellieren implizit die Beziehung zwischen Alter und Reaktion, jedoch auf unterschiedliche Weise. Die Auswahl hängt davon ab, wie Sie diese Beziehung modellieren. Ihre Wahl sollte von einer zugrunde liegenden Theorie abhängen, falls es eine gibt. Welche Art von Informationen möchten Sie aus den Ergebnissen extrahieren? und wie die Probe ausgewählt wird. In dieser Antwort werden diese drei Aspekte der Reihe nach behandelt.
Ich werde den t-Test und die logistische Regression mit einer Sprache beschreiben, die davon ausgeht, dass Sie eine genau definierte Population von Menschen untersuchen und Rückschlüsse aus der Stichprobe auf diese Population ziehen möchten.
Um irgendeine Art von statistischer Inferenz zu unterstützen, müssen wir annehmen, dass die Stichprobe zufällig ist.
Bei einem t-Test wird davon ausgegangen, dass die mit "Nein" geantworteten Personen eine einfache Zufallsstichprobe aller mit "Ja" geantworteten Personen in der Bevölkerung sind und dass die mit "Ja" geantworteten Personen eine einfache Zufallsstichprobe aller mit "Ja" geantworteten Personen in der Bevölkerung sind Population.
Ein t-Test macht zusätzliche technische Annahmen über die Verteilung des Alters in jeder der beiden Bevölkerungsgruppen. Es gibt verschiedene Versionen des T-Tests, um die wahrscheinlichen Möglichkeiten zu behandeln.
Die logistische Regression geht davon aus, dass alle Menschen eines bestimmten Alters eine einfache Zufallsstichprobe der Menschen dieses Alters in der Bevölkerung sind. Die einzelnen Altersgruppen können unterschiedliche "Ja" -Raten aufweisen. Wenn diese Quoten als logarithmische Quoten ausgedrückt werden (anstatt als gerade Proportionen), wird angenommen, dass sie linear mit dem Alter (oder mit bestimmten bestimmten Funktionen des Alters) zusammenhängen.
Die logistische Regression kann leicht erweitert werden, um nichtlineare Beziehungen zwischen Alter und Reaktion zu berücksichtigen. Eine solche Erweiterung kann verwendet werden, um die Plausibilität der anfänglichen linearen Annahme zu bewerten. Dies ist bei großen Datensätzen praktikabel, die genügend Details bieten, um Nichtlinearitäten anzuzeigen, bei kleinen Datensätzen ist es jedoch unwahrscheinlich, dass sie von großem Nutzen sind. Eine allgemeine Faustregel - dass Regressionsmodelle zehnmal so viele Beobachtungen wie Parameter haben sollten - legt nahe, dass wesentlich mehr als 20 Beobachtungen erforderlich sind, um die Nichtlinearität zu erfassen (für die neben dem Achsenabschnitt und der Steigung einer linearen Funktion ein dritter Parameter erforderlich ist) ).
Ein t-Test ermittelt, ob sich das Durchschnittsalter zwischen Nein- und Ja-Befragten in der Bevölkerung unterscheidet. Eine logistische Regression schätzt, wie unterschiedlich die Rücklaufquote je nach Alter ist. Als solches ist es flexibler und in der Lage, detailliertere Informationen zu liefern als der T-Test. Andererseits ist es in der Regel weniger leistungsfähig als der t-Test, um einen Unterschied zwischen den Durchschnittsaltern in den Gruppen festzustellen.
Es ist möglich, dass das Testpaar alle vier Kombinationen von Signifikanz und Nicht-Signifikanz aufweist. Zwei davon sind problematisch:
Der t-Test ist nicht signifikant, die logistische Regression jedoch. Wenn die Annahmen beider Tests plausibel sind, ist ein solches Ergebnis praktisch unmöglich, da der t-Test nicht versucht, eine solche spezifische Beziehung zu erkennen, wie sie sich aus der logistischen Regression ergibt. Wenn diese Beziehung jedoch nicht linear genug ist, um zu bewirken, dass die ältesten und jüngsten Probanden eine Meinung teilen und die Probanden mittleren Alters eine andere, kann die Ausweitung der logistischen Regression auf nicht lineare Beziehungen diese Situation erkennen und quantifizieren, die kein T-Test erkennen könnte .
Der t-Test ist signifikant, die logistische Regression jedoch nicht, wie in der Frage. Dies ist häufig der Fall, insbesondere wenn eine Gruppe von jüngeren Befragten, eine Gruppe von älteren Befragten und nur wenige Personen dazwischen sind. Dies kann zu einer großen Trennung zwischen den Antwortraten von No- und Yes-Respondern führen. Es wird durch den t-Test leicht erkannt. Eine logistische Regression hätte jedoch entweder relativ wenig detaillierte Informationen darüber, wie sich die Rücklaufquote tatsächlich mit dem Alter ändert, oder sie hätte nicht schlüssige Informationen: den Fall einer "vollständigen Trennung", bei der alle älteren Menschen auf eine Art und alle jüngeren auf eine andere Art und Weise reagieren. In diesem Fall hätten beide Tests normalerweise sehr niedrige p-Werte.
Beachten Sie, dass die Versuchsanordnung einige der Testannahmen ungültig machen kann. Wenn Sie beispielsweise Personen nach ihrem Alter in einem geschichteten Design ausgewählt haben, wird die Annahme des T-Tests (dass jede Gruppe eine einfache Zufallsstichprobe des Alters widerspiegelt) fraglich. Dieser Entwurf würde vorschlagen, sich auf logistische Regression zu verlassen. Wenn Sie stattdessen zwei Pools hatten, einen von No-Respondern und einen von Yes-Respondern, und zufällig aus diesen ausgewählt wurden, um ihr Alter zu bestimmen, sind die Stichprobenannahmen der logistischen Regression zweifelhaft, während die des T-Tests gelten. Dieser Entwurf würde die Verwendung einer Form eines T-Tests vorschlagen.
(Das zweite Design mag hier albern erscheinen, aber unter Umständen, in denen "Alter" durch ein Merkmal ersetzt wird, das schwierig, kostspielig oder zeitaufwendig zu messen ist, kann es ansprechend sein.)