Beispiele für kostspielige Konsequenzen aus dem unsachgemäßen Einsatz statistischer Tools


12

Ich vermute, dass die meisten Benutzer von Statistik-Tools Nebennutzer sind (Leute, die wenig bis gar keine formelle Ausbildung in Statistik hatten). Für Forscher und andere Fachleute ist es sehr verlockend, statistische Methoden auf ihre Daten anzuwenden, nur weil sie es in von Experten begutachteten Artikeln, in grauer Literatur, im Internet oder auf einer Konferenz schon einmal gesehen haben. Wenn Sie jedoch die erforderlichen Annahmen und die Einschränkungen des statistischen Tools nicht genau kennen, kann dies zu fehlerhaften Ergebnissen führen - Fehler, die häufig nicht bestätigt werden!

Ich stelle fest, dass Studenten (insbesondere in den Sozial- und Naturwissenschaften) die statistischen Fallstricke entweder nicht kennen oder diese Fallstricke für belanglos halten (letzteres ist am häufigsten der Fall). Obwohl Beispiele für die missbräuchliche Verwendung statistischer Tools in vielen Einführungsbüchern, im Web oder in StackExchange zu finden sind, fällt es mir schwer, Beispiele aus der Praxis zu finden, die sich nachteilig auswirken (z. B. Kosten in US-Dollar, betroffene Leben und Karriereverluste). . Zu diesem Zweck suche ich nach Beispielen aus der Praxis, die den Missbrauch statistischer Methoden aufzeigen, für die:

  1. Die verwendeten statistischen Methoden werden in der Regel in Kursen zu Einführungsstatistiken behandelt (z. B. Inferenzstatistiken, Regressionen usw.).
  2. Das Endergebnis hatte kostspielige Konsequenzen (verlorene Dollars, betroffene Leben, zerschmetterte Karrieren usw.).
  3. Die Daten können problemlos als Arbeitsbeispiele in einem Kurs verwendet werden (der Zweck besteht darin, die Schüler an realen Beispielen arbeiten zu lassen, die Konsequenzen für die reale Welt hatten.)

Ein nicht-statistisches Beispiel, das ich den Studenten gerne erläutere, wenn es darum geht , die Einheiten in einem Forschungsprojekt richtig zu definieren, ist das „metrische Missgeschick“ , das zum Verlust eines 125-Millionen-Dollar-Satelliten geführt hat! Dies führt normalerweise zu einem: -o-Faktor bei den Studenten und scheint einen bleibenden Eindruck zu hinterlassen (zumindest während ihres kurzen akademischen Lebens).


2
Ein weiteres nicht-statistisches Beispiel von Edward Tufte, Powerpoint, ist Rocket Science . Obwohl es etwas enger mit der logischen Weiterentwicklung des statistischen Denkens im Allgemeinen zusammenhängt als das von Ihnen erwähnte metrische Missgeschick. Kennen Sie auch dieses Buch, The Cult of Statistical Significance ?
Andy W

@AndyW, ich kenne "The Cult of Statistical Significance" nicht. Wissen Sie, ob die Elemente 2 / und 3 / in meiner Frage in diesem Buch behandelt werden?
MannyG

Ich weiß nicht über 3 Bescheid, aber wenn Sie die Buchbesprechung lesen, die ich damit verlinkt habe, würde dies Ihre Frage 2 beantworten (oder den verbleibenden Titel des Buches lesen!) Signifikanztests zu interpretieren.
Andy W

@AndyW das ist genau das Buch, das ich erwähnen wollte.
Peter Flom - Wiedereinsetzung von Monica

@AndyW, obwohl der Bericht, den Sie verknüpfen, auf ein Beispiel aus der Praxis des Buches für die missbräuchliche Verwendung von Statistiken verweist, ist mir nicht klar, ob die Folgekosten berücksichtigt werden. Wenn Folgekosten im Buch angesprochen werden, basieren sie auf unabhängigen Analysen oder der subjektiven Meinung der Autoren?
MannyG

Antworten:


8

Ich bin nicht sicher, ob Daten verfügbar sind, aber ein gutes Beispiel für schlechte Statistiken ist die Harvard Nurses 'Study zur Wirksamkeit der Hormonersatztherapie (HRT) bei Frauen in den Wechseljahren.

Was ist die allgemeine Idee? Die Nurses 'Study legte nahe, dass HRT für Frauen nach der Menopause von Vorteil ist. Es stellte sich heraus, dass dieses Ergebnis entstanden ist, weil die Kontrollgruppe sehr unterschiedlich von der Behandlungsgruppe war und diese Unterschiede in der Analyse nicht berücksichtigt wurden. In nachfolgenden randomisierten Studien wurde die HRT mit Krebs, Herzinfarkt, Schlaganfall und Blutgerinnseln in Verbindung gebracht. Mit entsprechenden Korrekturen zeigt die Nurses-Studie auch diese Muster.

Ich kann keine Schätzungen für US-Todesfälle im Zusammenhang mit HRT finden, aber die Größenordnung lag bei Zehntausenden. Ein Artikel verknüpft 1000 Todesfälle in Großbritannien mit HRT.

Dieser Artikel des New York Times Magazine bietet einen guten statistischen Hintergrund zu den in der Studie auftretenden Problemen der Verwechslung.

In dieser Ausgabe des American Journal of Epidemiology gibt es eine akademische Diskussion . Die Artikel vergleichen die Ergebnisse der Observational Nurses-Studie mit denen der Women's Health Initiative, basierend auf randomisierten Studien.

Es gibt auch Diskussionen (von vielen derselben Personen) in einer Ausgabe von Biometrics. Siehe insbesondere den Kommentar von Freedman und Petitti [ prepub version ].


1
Ich würde eigentlich gegen die Verwendung dieses Beispiels argumentieren. Seit 2005 gibt es weitere Arbeiten, insbesondere von Miguel Hernan, siehe Beobachtungsstudien, die wie randomisierte Experimente analysiert wurden: Eine Anwendung auf die postmenopausale Hormontherapie und die Koronare Herzkrankheit , Epidemiologie (2008). Die Schlussfolgerung: "Zusammenfassend lässt sich sagen, dass die Diskrepanzen zwischen den WHI - und NHS - ITT - Schätzungen größtenteils durch Unterschiede in der Zeitverteilung seit den Wechseljahren und der Dauer der Nachsorge erklärt werden können Der NHS scheint kaum eine Rolle zu spielen. "
Fomite

Unabhängig davon, wie man sich über diese Studien fühlt, sind die Unterschiede zwischen ihnen kniffliger und komplizierter als das, was in dem vom OP vorgeschlagenen Rahmen wahrscheinlich nützlich ist.
Fomite

@EpiGrad, Dies ist sicherlich nicht mein Fachgebiet und ich bin sicher, dass Sie mehr über dieses Beispiel wissen als ich. Aber ich denke, dass das Papier, das Sie zitieren, den Punkt macht, den diese anderen Papiere tun. In der OSALRE-Studie werfen sie Frauen aus der NHS-Studie aus, die die Kriterien der WHI-Studie nicht erfüllen. Der Anteil der Frauen, die verworfen werden, muss je nach NHS-Behandlungs- und Kontrollgruppe unterschiedlich sein (sonst würden sich die Ergebnisse nicht ändern). Sie heben damit das in der NHS-Studie festgestellte Auswahlproblem auf. [[Fortsetzung]]
Charlie

1
Die Zeitung, die ich mochte, deutet zumindest für mich eher auf etwas hin: "Stellen Sie sicher, dass Sie dieselbe Frage stellen", als auf ein Problem der völligen Verwirrung. Versteht mich nicht falsch, das Thema NHS / WHI ist als Frage der Statistik und der öffentlichen Gesundheitspraxis äußerst interessant . Es ist nur komplexer, als die anfängliche Meinungsverschiedenheit vermuten lässt, und ich denke, dass es für Punkt 1 der OP-Anfrage etwas ungeeignet ist. Punkt 3 ist auch richtig.
Fomite

2
@EpiGrad, fair genug. Aber ich bezweifle ernsthaft, dass Sie eine Studie finden, die einen eklatanten statistischen Fehler aufweist, für dessen Verstehen nicht einige Gräber erforderlich sind, die weit verbreitete, erhebliche Konsequenzen hatten. Vielleicht werden andere Befragte meinen Optimismus bei Forschern zunichte machen (heh).
Charlie

8

Ein wunderbares historisches Beispiel liefert die Veröffentlichung von Horace Secrists Triumph of Mediocrity in Business aus dem Jahr 1933 . Zu dieser Zeit war Secrist ein etablierter Statistiker, Autor eines Lehrbuchs (ich erinnere mich an das Jahr 1919), Mitglied der American Statistical Association und Leiter einer statistischen Forschungsgruppe an der Northwestern University. Er und seine Mitarbeiter hatten im vergangenen Jahrzehnt Zeitreihen von Geschäftsdaten zusammengestellt, die im Buch reproduziert und sorgfältig analysiert wurden. Es sollte ein Meisterstück eines ambitionierten Statistikers sein.

Harold Hotellings Rezension des Buches, das später in diesem Jahr in JASA erschien, wies darauf hin, dass Secrist lediglich Hunderte von Beispielen für eine Regression des Mittelwerts dokumentiert hatte (ein grundlegendes Thema in einem einführenden Statistikkurs von heute, Punkt 1 der Frage). Secrist protestierte in einer veröffentlichten Antwort. Hotellings Antwort darauf ist ein Klassiker:

Ein solches mathematisches Ergebnis durch eine kostspielige und langwierige numerische Untersuchung zu "beweisen" ... ist analog zum Nachweis der Multiplikationstabelle, indem Elefanten in Zeilen und Spalten angeordnet werden und dann dasselbe für zahlreiche andere Tierarten. Obwohl die Aufführung vielleicht unterhaltsam ist und einen gewissen pädagogischen Wert hat, ist sie weder ein wichtiger Beitrag zur Zoologie noch zur Mathematik.

[JASA v. 29 # 186, Juni 1934, p. 199.]

Secrist scheint kurz danach schnell aus der statistischen Szene verschwunden zu sein ("Karriere ruiniert", Punkt 2 in der Frage). Sein Buch ist noch verfügbar. (Vor ein paar Jahren habe ich über die Fernleihe eine schöne, saubere und offensichtlich wenig gelesene Kopie erhalten.) Daraus können Sie eine beliebige Anzahl von Beispieldatensätzen extrahieren (Punkt 3 der Frage).

Steven Stigler erzählt diese Geschichte in einem Buch und einer Zeitung, Die Geschichte der Statistik im Jahr 1933 .


4

Mir scheint, dass Wireds Einschätzung des Börsencrashs von 2008 ein informatives Beispiel sein könnte. Ich kann nicht beurteilen, ob die Schlussfolgerungen richtig sind oder nicht, aber die Idee, Korrelationen für Daten zu verwenden, die keine repräsentative Stichprobe sind, scheint den Umständen angemessen zu sein, die Sie vorschlagen. Es ist auch aktuell und könnte sie deshalb interessieren.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.