Faustregeln für die minimale Stichprobengröße bei multipler Regression


72

Im Rahmen eines sozialwissenschaftlichen Forschungsvorschlags wurde mir folgende Frage gestellt:

Ich bin immer um 100 + m (wobei m die Anzahl der Prädiktoren ist) gegangen, wenn ich die minimale Stichprobengröße für die multiple Regression bestimmt habe. Ist das angebracht

Ich bekomme oft ähnliche Fragen, oft mit anderen Faustregeln. Ich habe solche Faustregeln auch ziemlich oft in verschiedenen Lehrbüchern gelesen. Ich frage mich manchmal, ob die Popularität einer Regel in Bezug auf Zitate davon abhängt, wie niedrig der Standard eingestellt ist. Mir ist jedoch auch bewusst, wie wichtig eine gute Heuristik ist, um die Entscheidungsfindung zu vereinfachen.

Fragen:

  • Welchen Nutzen haben einfache Faustregeln für Mindeststichprobengrößen im Kontext von angewandten Forschern, die Forschungsstudien entwerfen?
  • Würden Sie eine alternative Faustregel für die minimale Stichprobengröße bei multipler Regression vorschlagen?
  • Welche alternativen Strategien schlagen Sie alternativ vor, um die Mindeststichprobengröße für die multiple Regression zu bestimmen? Insbesondere wäre es gut, wenn Wert darauf gelegt würde, inwieweit eine Strategie von einem Nicht-Statistiker ohne weiteres angewendet werden kann.

Antworten:


36

Ich bin kein Fan von einfachen Formeln zur Generierung von Mindeststichprobengrößen. Zumindest sollte jede Formel die Effektgröße und die relevanten Fragen berücksichtigen. Und der Unterschied zwischen beiden Seiten eines Cut-Offs ist minimal.

Stichprobengröße als Optimierungsproblem

  • Größere Proben sind besser.
  • Die Stichprobengröße wird häufig durch pragmatische Überlegungen bestimmt.
  • Die Stichprobengröße sollte als eine Überlegung bei einem Optimierungsproblem angesehen werden, bei dem die Kosten für Zeit, Geld, Aufwand usw. für die Gewinnung zusätzlicher Teilnehmer gegen die Vorteile der Gewinnung zusätzlicher Teilnehmer abgewogen werden.

Eine grobe Faustregel

In Bezug auf sehr grobe Faustregeln im typischen Kontext beobachtungspsychologischer Studien, die Dinge wie Fähigkeitstests, Einstellungsskalen, Persönlichkeitsmaße usw. beinhalten, denke ich manchmal an:

  • n = 100 als ausreichend
  • n = 200 so gut
  • n = 400 + so groß

Diese Faustregeln basieren auf den 95% -Konfidenzintervallen, die mit Korrelationen auf diesen jeweiligen Ebenen und dem Genauigkeitsgrad verbunden sind, mit dem ich die relevanten Beziehungen theoretisch verstehen möchte. Es ist jedoch nur eine Heuristik.

G Leistung 3

Multiple Regression testet mehrere Hypothesen

  • Bei allen Fragen zur Leistungsanalyse müssen die Effektgrößen berücksichtigt werden.
  • Die Leistungsanalyse für die multiple Regression wird durch die Tatsache erschwert, dass es mehrere Effekte gibt, einschließlich des gesamten R-Quadrats und eines für jeden einzelnen Koeffizienten. Darüber hinaus umfassen die meisten Studien mehr als eine multiple Regression. Für mich ist dies ein weiterer Grund, mich mehr auf allgemeine Heuristiken zu verlassen und über die minimale Effektgröße nachzudenken, die Sie erkennen möchten.

  • Im Zusammenhang mit multipler Regression werde ich oft mehr über den Grad der Genauigkeit bei der Schätzung der zugrunde liegenden Korrelationsmatrix nachdenken.

Genauigkeit bei der Parameterschätzung

Ich mag auch die Diskussion von Ken Kelley und Kollegen über Genauigkeit bei der Parameterschätzung.

  • Siehe Ken Kelley Webseite für Veröffentlichungen
  • Wie von @Dmitrij, Kelley und Maxwell (2003) erwähnt, enthält FREE PDF einen nützlichen Artikel.
  • Ken Kelley hat das MBESSPaket in R entwickelt, um Analysen durchzuführen, bei denen Stichprobengröße und Genauigkeit der Parameterschätzung in Beziehung gesetzt werden.

17

Ich betrachte dies nicht lieber als ein Energieproblem, sondern stelle die Frage "Wie groß sollte sein, damit das scheinbare vertrauenswürdig ist?". Eine Möglichkeit, dies zu erreichen, besteht darin, das Verhältnis oder den Unterschied zwischen und zu berücksichtigen , wobei letzteres das angepasste das durch und Bilden einer unvoreingenommeneren Schätzung von "wahrem" .R 2nR2R2Radj2R21(1R2)n1np1R2

Einige R-Codes können verwendet werden, um für den Faktor von zu lösen, dass sollte, dass nur ein Faktor kleiner als oder nur um kleiner ist . pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

Bildbeschreibung hier eingeben Legende: Verschlechterung von , die einen relativen Abfall von auf um den angegebenen relativen Faktor (linkes Feld, 3 Faktoren) oder die absolute Differenz (rechtes Feld, 6 Dekremente).R2R2Radj2

Wenn jemand dies bereits in gedruckter Form gesehen hat, lassen Sie es mich bitte wissen.


1
+1. Ich vermute, ich vermisse etwas ziemlich Grundlegendes und Offensichtliches, aber warum sollten wir die Fähigkeit von , um als Kriterium zu schätzen ? Wir haben bereits Zugriff auf , auch wenn niedrig ist. Gibt es eine Möglichkeit zu erklären, warum dies der richtige Weg ist, um über das minimal adäquate nachzudenken, abgesehen davon , dass es einer besseren Schätzung von ? R^2R2Radj2NNR^2R2
gung - Wiedereinsetzung von Monica

@FrankHarrell: Schau mal, hier scheint der Autor die Diagramme 260-263 auf die gleiche Weise zu verwenden wie die in deinem Beitrag oben.
user603

5
Danke für den Hinweis. @gung das ist eine gute frage. Eine (schwache) Antwort ist, dass wir bei einigen Modelltypen kein haben und dass wir auch keinen angepassten Index haben, wenn eine Variablenauswahl vorgenommen wurde. Die Hauptidee ist jedoch, dass, wenn unverzerrt ist, andere Indizes der prädiktiven Diskriminierung, wie z. B. Rangkorrelationsmaße, wahrscheinlich auch aufgrund der Angemessenheit der Stichprobengröße und der minimalen Überanpassung unverzerrt sind. Radj2R2
Frank Harrell

12

(+1) für in der Tat eine meiner Meinung nach entscheidende Frage.

In der Makroökonometrie haben Sie in der Regel viel kleinere Stichproben als in mikro-, finanz- oder soziologischen Experimenten. Ein Forscher fühlt sich recht wohl, wenn er zumindest durchführbare Schätzungen abgeben kann. Meine persönliche kleinstmögliche Faustregel lautet ( Freiheitsgrade für einen geschätzten Parameter). In anderen angewandten Studienbereichen haben Sie normalerweise mehr Glück mit Daten (wenn diese nicht zu teuer sind, sammeln Sie einfach mehr Datenpunkte), und Sie können sich fragen, was die optimale Größe einer Stichprobe ist (nicht nur der Mindestwert für solche). Das letztere Problem ergibt sich aus der Tatsache, dass Daten mit geringerer Qualität (verrauscht) nicht besser sind als kleinere Stichproben mit hoher Qualität.4m4

Die meisten Stichprobengrößen hängen von der Teststärke der Hypothese ab, die Sie testen möchten, nachdem Sie das multiple Regressionsmodell angepasst haben.

Es gibt einen netten Taschenrechner , der für mehrere Regressionsmodelle und einige Formeln hinter den Kulissen nützlich sein könnte . Ich denke, ein solcher Prioritätsrechner könnte leicht von Nicht-Statistikern angewendet werden.

Wahrscheinlich sind Artikel von K.Kelley und SEMaxwell nützlich, um die anderen Fragen zu beantworten, aber ich brauche zunächst mehr Zeit, um das Problem zu untersuchen.


11

Ihre Faustregel ist nicht besonders gut, wenn sehr groß ist. Nehmen Sie : Ihre Regel besagt, dass es in Ordnung ist, Variablen mit nur Beobachtungen anzupassen. Ich denke kaum so!mm=500500600

Für die multiple Regression haben Sie eine Theorie, die eine minimale Stichprobengröße vorschlägt. Wenn Sie gewöhnliche kleinste Quadrate verwenden, ist eine der Annahmen, die Sie benötigen, dass die "wahren Residuen" unabhängig sind. Wenn Sie nun ein Modell der kleinsten Quadrate an Variablen anpassen, legen Sie Ihren empirischen Residuen (gegeben durch die kleinsten Quadrate oder "normalen" Gleichungen) lineare Einschränkungen auf. Dies impliziert, dass die empirischen Residuen nicht unabhängig sind - sobald wir von ihnen kennen, kann das verbleibende abgeleitet werden, wobei die Stichprobengröße ist. Wir haben also einen Verstoß gegen diese Annahme. Nun ist die Reihenfolge der Abhängigkeit . Also wenn du willstmm+1nm1m+1nO(m+1n)n=k(m+1) für irgendeine Zahl , dann ist die Reihenfolge durch . Wenn Sie also wählen, Sie, wie viel Abhängigkeit Sie tolerieren möchten. Ich wähle auf die gleiche Weise, wie Sie es bei der Anwendung des "zentralen Grenzwertsatzes" tun - ist gut, und wir haben die "Statistik-Zählregel" (dh das Zählsystem des Statistikers ist ).kkk10-20301,2,,26,27,28,29,O(1k)kk1020301,2,,26,27,28,29,


Sie sagen, 10 bis 20 sind gut, aber würde dies auch von der Größe der Fehlervarianz abhängen (möglicherweise relativ zu anderen Dingen)? Angenommen, es gibt nur eine Prädiktorvariable. Wenn bekannt wäre, dass die Fehlervarianz wirklich klein ist, könnten 3 oder 4 Datenpunkte ausreichen, um die Steigung und den Achsenabschnitt zuverlässig abzuschätzen. Wenn andererseits bekannt ist, dass die Fehlervarianz sehr groß ist, können sogar 50 Datenpunkte unzureichend sein. Verstehe ich etwas falsch?
mark999

Könnten Sie bitte eine Referenz für Ihre vorgeschlagene Gleichung angeben n=k(m+1)?
Sosi

6

In der Psychologie:

Grün (1991) gibt an, dass (wobei m die Anzahl der unabhängigen Variablen ist) zum Testen der Mehrfachkorrelation und zum Testen einzelner Prädiktoren erforderlich sind .N > 104 + mN>50+8mN>104+m

Andere Regeln, die verwendet werden können, sind ...

Harris (1985) sagt, dass die Anzahl der Teilnehmer die Anzahl der Prädiktoren um mindestens überschreiten sollte .50

Van Voorhis & Morgan (2007) ( pdf ) mit 6 oder mehr Prädiktoren sollte das absolute Minimum an Teilnehmern . Es ist jedoch besser, Teilnehmer pro Variable zu wählen.301030


1
Ihre erste "Regel" enthält kein "m".
Dason

Seine erste Faustregel lautet N = 50 + 8 m, obwohl in Frage gestellt wurde, ob der Term 50 tatsächlich benötigt wird
Sosi

Ich habe eine neue und komplexere Faustregel hinzugefügt, die die Effektgröße des Samples berücksichtigt. Dies wurde auch von Green (1991) vorgestellt.
Sosi

2
Was sind die vollständigen Zitate für die Referenzen Green (1991) und Harris (1985)?
Hatschepsut

2

Ich bin damit einverstanden, dass Leistungsrechner nützlich sind, um insbesondere die Auswirkungen verschiedener Faktoren auf die Leistung zu erkennen. In diesem Sinne sind Taschenrechner mit mehr Eingabeinformationen viel besser. Für die lineare Regression mag ich hier den Regressionsrechner , der Faktoren wie Fehler in Xs, Korrelation zwischen Xs und mehr enthält.


0

Ich habe in diesem kürzlich erschienenen Artikel (2015) festgestellt, dass nur 2 Beobachtungen pro Variable ausreichen, solange unser Interesse an der Genauigkeit der geschätzten Regressionskoeffizienten und Standardfehler (und an der empirischen Abdeckung der resultierenden Konfidenzintervalle) und wir besteht benutze das angepasste :R2

( pdf )

Natürlich impliziert (relative) Unparteilichkeit nicht notwendigerweise eine ausreichende statistische Aussagekraft. Berechnungen zu Leistung und Stichprobengröße werden jedoch in der Regel unter Angabe der erwarteten Auswirkungen durchgeführt. Im Falle einer multiplen Regression impliziert dies eine Hypothese über den Wert der Regressionskoeffizienten oder über die Korrelationsmatrix zwischen den Regressoren und dem Ergebnis, die erstellt werden muss. In der Praxis hängt es von der Stärke der Korrelation der Regressoren mit dem Ergebnis und untereinander ab (je stärker, desto besser für die Korrelation mit dem Ergebnis, während sich die Situation mit der Multikollinearität verschlechtert). Im Extremfall von zwei perfekt kollinearen Variablen kann die Regression beispielsweise nicht unabhängig von der Anzahl der Beobachtungen und sogar mit nur 2 Kovariaten durchgeführt werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.