Hat die Zeitschrift "Science" den "Garden of Forking Pathes Analysis" gebilligt?


29

Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als eine sehr fehlerhafte Analysemethode akzeptiert (sofern nicht alle) Die Schritte sind im Vorfeld klar definiert und richtig geplant.

Die adaptive Datenanalyse gibt in der Regel an, wie viele Forscher ihre Analysen tatsächlich durchführen, was für Statistiker eine große Enttäuschung darstellt. Wenn man dies auf statistisch gültige Weise tun könnte, würde dies die statistische Praxis revolutionieren.

Der folgende Wissenschaftsartikel behauptet, eine Methode dafür gefunden zu haben (ich entschuldige mich für die Paywall, aber wenn Sie an einer Universität sind, haben Sie wahrscheinlich Zugang): Dwork et al .

Persönlich war ich immer skeptisch gegenüber Statistikartikeln, die in Science veröffentlicht wurden , und dies ist nicht anders. Tatsächlich kann ich nach zweimaligem Lesen des Artikels, einschließlich des ergänzenden Materials, (überhaupt) nicht verstehen, warum die Autoren behaupten, dass ihre Methode eine Überanpassung verhindert.

Ich verstehe, dass sie ein Holdout-Dataset haben, das sie wiederverwenden. Sie scheinen zu behaupten, durch "Fuzzing" der Ausgabe der Bestätigungsanalyse auf dem Holdout-Datensatz wird eine Überanpassung verhindert (es ist erwähnenswert, dass das Fuzzing nur Rauschen zuzufügen scheint, wenn die berechnete Statistik der Trainingsdaten ausreichend weit ist aus der berechneten Statistik zu den Holdout-Daten ). Soweit ich das beurteilen kann, gibt es keinen wirklichen Grund, der eine Überanpassung verhindern könnte.

Habe ich mich geirrt, was die Autoren vorschlagen? Gibt es einen subtilen Effekt, den ich übersehen habe? Oder hat die Wissenschaft die bisher schlechteste statistische Praxis gebilligt?


2
Wer keinen Zugang zu Science hat, sollte sich in diesem aktuellen Science-Artikel über den Zugang zu kostenpflichtigen Papieren informieren.
Amöbe sagt Reinstate Monica

1
Ist dies möglicherweise ein Preprint: arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@Tim: Der Wissenschaftsartikel zitiert den Preprint, den Sie gepostet haben. Außerdem scheint der Abschnitt Laplace-Rauschaddition den Methoden im veröffentlichten Artikel sehr ähnlich, aber nicht identisch zu sein.
Cliff AB

1
@CliffAB, so dass sie möglicherweise unterschiedliche Privatsphäre verwendet, um sie anders zu machen;)
Tim

4
Dieses Thema ist eigentlich ein Tutorial bei ICML im letzten Monat. "Rigorous Data Dredging: Theorie und Werkzeuge für die adaptive Datenanalyse" von einem Kollegen bei Google. icml.cc/2016/?page_id=97
horaceT

Antworten:


7

Es gibt einen Blogbeitrag der Autoren , der dies auf hohem Niveau beschreibt.

So zitieren Sie zu Beginn dieses Beitrags:

Um die Anzahl der Variablen zu reduzieren und unsere Aufgabe zu vereinfachen, wählen wir zunächst einige vielversprechend aussehende Variablen aus, zum Beispiel solche, die eine positive Korrelation mit der Antwortvariablen (systolischer Blutdruck) aufweisen. Wir passen dann ein lineares Regressionsmodell an die ausgewählten Variablen an. Um die Güte unserer Modellanpassung zu messen, drehen wir einen Standard-F-Test aus unserem bevorzugten Statistiklehrbuch heraus und geben den resultierenden p-Wert an.

Freedman hat gezeigt, dass der gemeldete p-Wert sehr irreführend ist - selbst wenn die Daten völlig zufällig ohne jegliche Korrelation zwischen der Antwortvariablen und den Datenpunkten waren, würden wir wahrscheinlich einen signifikanten p-Wert beobachten! Die Verzerrung ergibt sich aus der Tatsache, dass wir eine Teilmenge der Variablen adaptiv basierend auf den Daten ausgewählt haben, diese Tatsache jedoch nie berücksichtigen. Es gibt eine große Anzahl möglicher Untergruppen von Variablen, aus denen wir ausgewählt haben. Die bloße Tatsache, dass wir einen Test dem anderen vorgezogen haben, indem wir uns die Daten angesehen haben, führt zu einer Auswahlverzerrung, die die dem F-Test zugrunde liegenden Annahmen ungültig macht.

Das Paradoxon von Freedman ist eine wichtige Lehre. Die Signifikanzniveaus von Standardverfahren erfassen nicht die große Anzahl von Analysen, die durchgeführt oder weggelassen werden können. Aus diesem Grund ist Adaptivität eine der wichtigsten Erklärungen dafür, warum Forschungsergebnisse häufig falsch sind, wie von Gelman und Loken argumentiert wurde, die Adaptivität treffend als „Garten der Gabelpfade“ bezeichnen.

Ich kann nicht sehen, wie ihre Technik dieses Problem überhaupt angeht. Als Antwort auf Ihre Frage glaube ich, dass sie sich nicht mit dem Garten der Gabelpfade befassen, und in diesem Sinne wird ihre Technik die Menschen in ein falsches Sicherheitsgefühl wiegen. Nicht viel anders als zu sagen, dass "ich Kreuzvalidierung verwendet habe" lullt viele - die nicht verschachtelten Lebenslauf verwendet haben - in ein falsches Gefühl der Sicherheit.

Mir scheint, dass der Großteil der Blog-Posts auf ihre Technik hinweist, um die Teilnehmer an einem Wettbewerb im Kaggle-Stil daran zu hindern, den Gradienten des Test-Sets zu überwinden. Das ist nützlich, geht aber nicht direkt auf die Forking Paths ein. Es fühlt sich so an, als hätte es das Flair von Wolfram und Googles New Science, wo riesige Datenmengen die Kontrolle übernehmen. Diese Erzählung hat eine gemischte Bilanz und ich bin immer skeptisch gegenüber automatisierter Magie.


3

Ich bin mir sicher, dass ich diese differenzierte Datenschutztechnik hier zu stark vereinfache, aber die Idee ist auf hohem Niveau sinnvoll.

Wenn Sie einen Algorithmus zum Ausspucken eines guten Ergebnisses erhalten (wow, die Genauigkeit meines Testsatzes hat sich wirklich verbessert), möchten Sie nicht sofort zum Abschluss kommen. Sie möchten es nur akzeptieren, wenn die Verbesserung erheblich größer als der vorherige Algorithmus ist. Das ist der Grund für das Hinzufügen von Lärm.

BEARBEITEN: Dieser Blog enthält eine gute Erklärung und R-Codes, um die Wirksamkeit des Rauschaddierers zu demonstrieren. Http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


>τ

1
@CliffAB Ich habe das gleiche nörgelnde Gefühl, warum dies besser funktioniert als nur eine einfache Schwelle. Aber sie haben Beweise!
HoraceT

>τ

@CliffAB Kannst du das näher erläutern? woher? Das ist eine faszinierende Möglichkeit ...
HoraceT

Wenn Sie die Folien aus Ihrem früheren Link ( icml.cc/2016/?page_id=97 ) auf den Folien 72 und 73 verwenden, ist die Holdout-Genauigkeit auch bei Verwendung der "Thresholdout" -Methode bei jeder einzelnen Simulation höher als die frischen Daten Es ist besser als "Standard-Holdout" (was wirklich "Standard-Missbrauch des Validierungsdatensatzes" ist, kein aktuell gültiges statistisches Verfahren). Zu Ihrer Information, der Plot scheint auf den Folien der gleiche zu sein wie in der wissenschaftlichen Arbeit (nur für den Fall, dass Sie keinen Zugang haben).
Cliff AB

3

Die Behauptung, dass das Hinzufügen von Lärm dazu beiträgt, eine Überanpassung zu verhindern, hält hier wirklich Wasser, da das, was sie tatsächlich tun , die Wiederverwendung des Holdouts einschränkt . Ihre Methode bewirkt zwei Dinge: Sie begrenzt die Anzahl der Fragen, die dem Holdout gestellt werden können, und wie viel von jeder der Antworten über die Holdout-Daten verrät.

kknn/k

n/kk

Das Herzstück ihrer Methode ist eine Beziehung zwischen algorithmischer Stabilität und Überanpassung, die bis in die späten 1970er Jahre zurückreicht (Devroye und Wagner 1978). Grob gesagt

EINXq=EIN(X)EINXPqxqP

EIN()f(EIN())fqEINEIN

Mittlerweile gibt es eine ganze Reihe von Artikeln, in denen analysiert wird, wie unterschiedliche Verfahren zur Lärmaddition die Überanpassung steuern. Ein relativ lesbares ist das von Russo und Zou ( https://arxiv.org/abs/1511.05219 ). Einige neuere Follow-up-Arbeiten zu den ersten Arbeiten von Dwork et al. könnte auch hilfreich sein, um zu sehen. (Haftungsausschluss: Ich habe zwei Artikel zu diesem Thema, von denen der jüngste eine Verbindung zum Testen adaptiver Hypothesen erklärt: https://arxiv.org/abs/1604.03924 .)

Hoffe, dass alles hilft.


0

Ich widerspreche Ihrem zweiten Satz. Die Vorstellung, dass der vollständige Plan für die Datenanalyse im Voraus festgelegt werden sollte, ist nicht gerechtfertigt, selbst wenn Sie versuchen, eine bereits bestehende wissenschaftliche Hypothese zu bestätigen. Im Gegenteil, jede anständige Datenanalyse erfordert ein gewisses Maß an Aufmerksamkeit für die tatsächlich erfassten Daten. Die Forscher, die an etwas anderes glauben, sind im Allgemeinen Forscher, die glauben, dass Signifikanztests der Anfang und das Ende der Datenanalyse sind, wobei deskriptive Statistiken, Diagramme, Schätzungen, Vorhersagen, Modellauswahl usw. kaum eine Rolle spielen seine analytischen Pläne im Voraus festlegen, ist sinnvoller, weil die herkömmlichen Methoden, mit denen p-Werte werden berechnet, wenn die Stichprobengröße und die durchzuführenden Tests festgelegt werden, bevor Daten angezeigt werden. Diese Anforderung erschwert den Analysten und ist daher einer der vielen guten Gründe, keine Signifikanztests zu verwenden.

Möglicherweise haben Sie Einwände dagegen, dass der Analyst nach Anzeige der Daten eine Überanpassung zulässt. Dies ist der Fall, aber ein guter Analyst wird alle von ihm durchgeführten Analysen anzeigen, explizit angeben, welche Informationen in den Daten für analytische Entscheidungen verwendet wurden, und Methoden wie die Kreuzvalidierung angemessen anwenden. Zum Beispiel ist es im Allgemeinen in Ordnung, Variablen basierend auf der erhaltenen Werteverteilung neu zu codieren. Wenn Sie jedoch für einige Analysen die 3 Prädiktoren von 100 auswählen, die die engste beobachtete Assoziation zu der abhängigen Variablen aufweisen, bedeutet dies, dass die Assoziationsschätzungen positiv sein werden voreingenommen, durch das Prinzip der Regression zum Mittelwert. Wenn Sie die Variablenauswahl in einem prädiktiven Kontext durchführen möchten, müssen Sie Variablen in Ihren Kreuzvalidierungsfalten auswählen oder nur die Trainingsdaten verwenden.


2
Ich glaube, vieles, was Sie vorschlagen, passt in den Bereich der explorativen Datenanalyse (EDA), für die ich adaptive Datenanalysemethoden empfohlen habe. Ich denke auch, dass EDA unterschätzt wird und mehr Anerkennung verdient. All dies ist jedoch orthogonal zu der vorliegenden Frage: "Haben diese Autoren es uns wirklich erlaubt, die Validierungsdaten wiederholt für die Modellauswahl in einer statistisch gültigen Methode zu verwenden?" Ihr letzter Satz legt nahe, dass Sie, wie ich, solchen Erkenntnissen etwas skeptisch gegenüberstehen.
Cliff AB

Ich denke nicht, dass zB die Schätzung von Natur aus explorativ ist, nein. Wenn Sie eine wissenschaftliche Hypothese haben, die besagt, dass die maximale Länge eines Krokodils 12 Fuß betragen muss, und Sie versuchen, die maximale Länge eines Krokodils zu schätzen, um dies zu überprüfen, führen Sie eine Bestätigungsanalyse durch.
Kodiologist

2
+1, trotz drei bestehender Abwertungen. Ich stimme dem Hauptpunkt dieser Antwort (Ihrem zweiten Satz) zu, obwohl mir völlig bewusst ist, dass es ziemlich kontrovers ist. Im Allgemeinen denke ich, dass der Unterschied zwischen der explorativen und der bestätigenden Analyse überbewertet ist. Die Analyse im wirklichen Leben liegt oft irgendwo dazwischen. Ich glaube jedoch nicht, dass Sie die Frage von OP zu Dwork et al. Beantwortet haben (oder sogar versucht haben, sie zu beantworten). Papier.
Amöbe sagt Reinstate Monica

@amoeba "Ich glaube nicht, dass Sie die Frage von OP zu Dwork et al. Paper beantwortet haben (oder sogar versucht haben, sie zu beantworten)." Prämisse der Frage.
Kodiologist

2
+1 zu @ amoebas Kommentar. Dies wäre ein großartiger Kommentar zu der Frage gewesen, aber es ist keine Antwort.
S. Kolassa - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.