Kann eine Kreuzvalidierung zur kausalen Inferenz verwendet werden?


37

In allen mir vertrauten Zusammenhängen wird die Kreuzvalidierung ausschließlich mit dem Ziel verwendet, die Vorhersagegenauigkeit zu erhöhen. Kann die Logik der Kreuzvalidierung bei der Schätzung der unverzerrten Beziehungen zwischen Variablen erweitert werden?

Während dieser Artikel von Richard Berk die Verwendung eines Hold-Out-Beispiels für die Parameterauswahl im "endgültigen" Regressionsmodell demonstriert (und zeigt, warum eine schrittweise Parameterauswahl keine gute Idee ist), verstehe ich immer noch nicht, wie genau dies gewährleistet ist Unparteiische Schätzungen der Auswirkung, die X auf Y hat, sind ebenso wichtig wie die Auswahl eines Modells, das auf Logik und Vorkenntnissen des Subjekts basiert.

Ich bitte die Leute, Beispiele zu nennen, in denen man eine Hold-out-Stichprobe verwendet, um die kausale Folgerung zu unterstützen, oder allgemeine Aufsätze, die mein Verständnis verbessern könnten. Ich bezweifle auch nicht, dass mein Konzept der Kreuzvalidierung naiv ist, und wenn es so ist, dann auch. Es scheint, als wäre die Verwendung einer Hold-out-Stichprobe ohne weiteres kausalen Rückschlüssen zugänglich, aber ich kenne keine Arbeit, die dies tut oder wie sie dies tun würden.

Zitat für das Berk Paper:

Statistische Inferenz nach Modellauswahl von: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology. 26, No. 2. (1. Juni 2010), S. 217-236.

PDF-Version hier

Diese Frage zur explorativen Datenanalyse in kleinen Stichprobenstudien von chl hat diese Frage aufgeworfen.

Antworten:


19

Ich denke, es ist nützlich zu überprüfen, was wir über die gegenseitige Validierung wissen. Statistische Ergebnisse zum Lebenslauf lassen sich in zwei Klassen einteilen: Effizienz und Konsistenz.

Bei der Erstellung von Vorhersagemodellen geht es in der Regel um Effizienz. Die Idee ist, dass wir CV verwenden, um ein Modell mit asymtptotischen Garantien bezüglich der Verlustfunktion zu bestimmen. Das berühmteste Ergebnis ist Stone 1977 zu verdanken und zeigt, dass LOO CV asymptotisch mit AIC äquivalent ist. Brett bietet jedoch ein gutes Beispiel, in dem Sie ein Vorhersagemodell finden, das Sie nicht über den Kausalmechanismus informiert.

Es geht uns um Konsistenz, wenn wir das "wahre" Modell finden wollen. Die Idee ist, dass wir CV verwenden, um ein Modell mit asymptotischen Garantien zu bestimmen. Wenn unser Modellraum das wahre Modell enthält, werden wir es mit einer ausreichend großen Stichprobe entdecken. Das berühmteste Ergebnis hier ist Shao 1993 in Bezug auf lineare Modelle zu verdanken, aber wie er in seiner Zusammenfassung feststellt, steht seine "schockierende Entdeckung" dem Ergebnis für LOO entgegen. Für lineare Modelle können Sie mit LKO CV eine Konsistenz erzielen, solange wie . Abgesehen von linearen Werten ist es schwieriger, statistische Ergebnisse abzuleiten. n k/n1n

Angenommen, Sie können die Konsistenzkriterien erfüllen und Ihr CV-Verfahren führt zum wahren Modell: . Was haben wir über den Kausalmechanismus gelernt? Wir wissen einfach, dass es eine gut definierte Korrelation zwischen und , die nicht viel über kausale Behauptungen aussagt. Aus traditioneller Sicht müssen Sie experimentelles Design mit dem Kontroll- / Manipulationsmechanismus einbringen, um kausale Behauptungen aufzustellen. Aus der Perspektive von Judea Pearls Framework können Sie kausale Annahmen in ein Strukturmodell einbauen und die wahrscheinlichkeitsbasierte Gegenfaktenrechnung verwenden, um einige Behauptungen abzuleiten, aber Sie müssen bestimmte Eigenschaften erfüllen . Y XY=βX+eYX

Vielleicht können Sie sagen, dass der Lebenslauf bei der kausalen Folgerung helfen kann, indem er das wahre Modell identifiziert (vorausgesetzt, Sie können die Konsistenzkriterien erfüllen!). Aber es bringt dich nur so weit; Der Lebenslauf selbst leistet in keinem der beiden Rahmen kausaler Folgerungen etwas.

Wenn Sie weiter an dem interessiert sind, was wir mit Kreuzvalidierung sagen können, würde ich Shao 1997 gegenüber dem vielzitierten Papier von 1993 empfehlen:

Sie können die wichtigsten Ergebnisse überfliegen, aber es ist interessant, die folgende Diskussion zu lesen. Ich fand die Kommentare von Rao & Tibshirani und von Stone besonders aufschlussreich. Beachten Sie jedoch, dass in Bezug auf die Kausalität keine Behauptungen aufkommen, obwohl sie sich mit der Konsistenz befassen.


Vielen Dank für alle Hinweise, insbesondere für die Antworten von Judea Pearl (Ich muss das Buch kaufen, das auf all den wunderbaren Informationen in diesen kurzen Antwortaufsätzen basiert.)
Andy W

1
Kommentare für Downvote sind immer willkommen!
Chl

18

Dies ist eine wirklich interessante Frage, und ich biete keine spezifischen Zitate an. Im Allgemeinen würde ich jedoch sagen, NEIN, an und für sich bietet die Kreuzvalidierung keinen Einblick in die Kausalität. In Abwesenheit eines geplanten Experiments ist das Problem der Kausalität immer ungewiss. Wie Sie vorschlagen, kann und wird eine Kreuzvalidierung die Vorhersagegenauigkeit verbessern. Dies allein sagt nichts über die Kausalität aus.

Ohne ein geplantes Experiment würde eine kausale Inferenz ein Modell erfordern, das alle relevanten Prädiktoren enthält - etwas, das wir in einer Beobachtungsstudie selten garantieren können. Darüber hinaus würde beispielsweise eine einfache Verzögerungsvariable (oder alles, was in hohem Maße mit dem vorhergesagten Ergebnis korreliert) ein gutes Modell ergeben, das in mehreren Stichproben validiert werden könnte. Das heißt jedoch nicht, dass wir auf eine Kausalität schließen können. Die Kreuzvalidierung sichert die Wiederholbarkeit von Vorhersagen und nicht mehr. Kausalität ist eine Frage von Design und Logik.

EDIT: Hier ist ein Beispiel zur Veranschaulichung. Ich könnte ein Modell mit guter Vorhersagegenauigkeit erstellen, das die Bevölkerung einer Stadt auf der Grundlage des Geldbetrags vorhersagt, den die Stadt für die Müllbeseitigung ausgibt. Ich könnte eine Kreuzvalidierung verwenden, um die Genauigkeit dieses Modells sowie andere Methoden zu testen, um die Genauigkeit der Vorhersage zu verbessern und stabilere Parameter zu erhalten. Während dieses Modell für die Vorhersage hervorragend geeignet ist, ist die Kausallogik falsch - die Kausalrichtung ist umgekehrt. Egal was die Leute in der Abteilung für öffentliche Arbeiten argumentieren mögen, eine Aufstockung ihres Budgets für die Müllentsorgung wäre keine gute Strategie, um die Bevölkerung der Stadt zu vergrößern (die kausale Interpretation).

Die Probleme der Genauigkeit und Wiederholbarkeit eines Modells sind unabhängig von unserer Fähigkeit, kausale Rückschlüsse auf die beobachteten Beziehungen zu ziehen. Kreuzvalidierung hilft uns bei der ersteren und nicht bei der letzteren. WENN wir nun ein "korrektes" Modell für die Angabe einer zufälligen Beziehung abschätzen (zum Beispiel versuchen, das Budget für die Müllentsorgung auf der Grundlage unserer erwarteten Population im nächsten Jahr zu ermitteln), kann eine gegenseitige Validierung zu einer besseren Beziehung führen Vertrauen in unsere Einschätzung dieses Effekts. Kreuzvalidierung hilft uns jedoch nicht, das "richtige" Modell in Bezug auf Kausalzusammenhänge zu wählen. Auch hier müssen wir uns auf das Design der Studie, unsere Fachkenntnisse, Theorie und Logik verlassen.


1
Sie glauben also nicht, dass die Wiederholbarkeit von Effektschätzungen nützlich sein kann? Obwohl Sie mit Ihrer Vorstellung, was Kausalitätsbeweis ist, nicht allein sind, halte ich sie für recht eng. Wir werden niemals in der Lage sein, einen Kausalzusammenhang auf unbestimmte Zeit zu beweisen, auch nicht mit einem Experiment, wenn nicht alle Beweise im Universum vorliegen. Meiner Meinung nach ist es daher das Ziel, Beweise dafür zu liefern, dass die von uns geschätzte Beziehung angesichts der uns bekannten Informationen der Wahrheit möglichst nahe kommt. Denken Sie nicht, dass die Wiederholbarkeit der Vorhersage von einem Trainingssatz bis zu einer Hold-out-Stichprobe eine nützliche Kontrolle der gemachten Schlussfolgerungen sein könnte?
Andy W

Ich freue mich auch über Ihre Kommentare und stimme voll und ganz zu, dass Schlussfolgerungen stark von der Logik und dem Forschungsdesign abhängen.
Andy W

1
Andy, ich habe meinen Beitrag bearbeitet, um Ihre Kommentare zu adressieren. Ich möchte auch nicht behaupten, dass kausale Schlussfolgerungen nicht außerhalb des Kontexts eines geplanten Experiments möglich sind. Dennoch ist es in Beobachtungsstudien schwieriger und weniger sicher, und wir sollten uns nicht mit Modellierungsverfahren befassen, um uns bei diesem Problem zu helfen. Vielmehr sollten wir versuchen, die Probleme, für die wir versuchen, kausale Zusammenhänge zu verstehen, besser zu verstehen.
Brett

Ich bin mit so ziemlich allem einverstanden, was Sie sagen, mit der Ausnahme, dass Genauigkeit und Wiederholbarkeit von entscheidender Bedeutung sind, um im Zweifelsfall richtige Schlussfolgerungen zu ziehen. Ich kann Experten den Vorteil des Zweifels geben, dass sie logische Modelle erstellen. Was mich betrifft, ist die Wiederholbarkeit der Ergebnisse in vielen Beobachtungskontexten. Obwohl ich der Meinung bin, dass Wiederholbarkeit nicht unbedingt störende Einflüsse berücksichtigt, die am besten in experimentellen Umgebungen behandelt werden.
Andy W

(+1) Entschuldigung. Offenbar habe ich auch vergessen, Ihre sehr nette Antwort zu unterstützen. Bereits abgestimmt Ihre hilfreichen Kommentare.
Chl

13

Mir scheint, Ihre Frage befasst sich allgemeiner mit unterschiedlichen Validierungsarten für ein Vorhersagemodell: Die Kreuzvalidierung hat etwas mehr mit der internen Validierung oder zumindest mit der anfänglichen Modellierungsphase zu tun , wohingegen das Zeichnen von Kausalzusammenhängen für eine breitere Grundgesamtheit eher verwandt ist zu äußerlicher Geltung. Damit (und als Update nach Bretts netter Bemerkung) meine ich, dass wir in der Regel ein Modell auf der Grundlage einer funktionierenden Stichprobe aufbauen und ein hypothetisches konzeptionelles Modell annehmen (dh, wir spezifizieren die Beziehungen zwischen Prädiktoren und den interessierenden Ergebnissen). und wir versuchen, zuverlässige Schätzungen mit einer minimalen Klassifizierungsfehlerrate oder einem minimalen Vorhersagefehler zu erhalten. Je besser das Modell hoffentlich abschneidet, desto besser können wir die Ergebnisse für unsichtbare Daten vorhersagen. Dennoch sagt der Lebenslauf nichts über die "Gültigkeit" oder Angemessenheit der hypothetischen Kausalzusammenhänge aus. Mit einem Modell, bei dem einige Moderations- und / oder Mediationseffekte vernachlässigt werden oder einfach im Voraus nicht bekannt sind, könnten wir sicherlich gute Ergebnisse erzielen.

Mein Punkt ist, dass Sie unabhängig von der Methode, die Sie zur Validierung Ihres Modells verwenden (und die Holdout-Methode ist sicherlich nicht die beste, sie wird jedoch häufig in epidemiologischen Studien verwendet, um die Probleme zu lindern, die sich aus der schrittweisen Modellbildung ergeben), mit derselben Stichprobe arbeiten (von dem wir annehmen, dass es für eine größere Bevölkerung repräsentativ ist). Im Gegenteil, die Verallgemeinerung der Ergebnisse und der Kausalzusammenhänge, die auf diese Weise auf neue Stichproben oder eine plausibel verwandte Population geschlossen werden, erfolgt normalerweise durch Replikationsstudien . Dies stellt sicher, dass wir die Vorhersagefähigkeit unseres Modells sicher in einer "Superpopulation" testen können, die einen größeren Bereich individueller Variationen aufweist und andere potenzielle interessierende Faktoren aufweisen kann.

Ihr Modell bietet möglicherweise gültige Vorhersagen für Ihre Arbeitsprobe und enthält alle potenziellen Störfaktoren, an die Sie möglicherweise gedacht haben. Es ist jedoch möglich, dass es mit neuen Daten nicht so gut funktioniert, nur weil andere Faktoren im dazwischenliegenden kausalen Pfad auftreten, die beim Erstellen des ursprünglichen Modells nicht identifiziert wurden. Dies kann beispielsweise dann der Fall sein, wenn einige der Prädiktoren und die daraus abgeleiteten Kausalzusammenhänge von dem jeweiligen Studienzentrum abhängen, in dem Patienten rekrutiert wurden.

In der genetischen Epidemiologie können viele genomweite Assoziationsstudien nicht repliziert werden, nur weil wir versuchen, komplexe Krankheiten mit einem vereinfachten Blick auf die kausalen Zusammenhänge zwischen DNA-Markern und dem beobachteten Phänotyp zu modellieren, während es sehr wahrscheinlich ist, dass Gen-Gen (Epistase), Generkrankungen (Pleiotropie), Genumgebung und Populations-Substruktur spielen eine Rolle, siehe aber zum Beispiel Validierung, Erweiterung und Verfeinerung genomweiter Assoziationssignale(Ioannidis et al., Nature Reviews Genetics, 2009 10). So können wir ein performantes Modell aufbauen, um die beobachteten Kreuzvariationen zwischen einer Reihe genetischer Marker (mit sehr geringer und geringer Effektgröße) und einem multivariaten Muster beobachteter Phänotypen (z. B. Volumen der weißen / grauen Substanz oder) zu berücksichtigen lokalisierte Aktivitäten im Gehirn, wie sie durch fMRT, Reaktionen auf neuropsychologische Untersuchungen oder Persönlichkeitsinventur beobachtet werden, funktionieren bei einer unabhängigen Stichprobe immer noch nicht wie erwartet.

Eine allgemeine Referenz zu diesem Thema finden Sie in Kapitel 17 und Teil III der klinischen Vorhersagemodelle von EW Steyerberg (Springer, 2009). Ich mag auch den folgenden Artikel von Ioannidis:

Ioannidis, JPA, Warum sind die meisten veröffentlichten Forschungsergebnisse falsch? PLoS Med. 2005 2 (8): e124


1
@chl: Können Sie Ihre Aussage im ersten Absatz zur internen vs. externen Gültigkeit erläutern? In der mir vertrauten Tradition bezieht sich interne Validität auf die Fähigkeit, Ursache-Wirkungs-Beziehungen zwischen den Variablen innerhalb der jeweiligen Stichprobe zu behaupten; Externe Gültigkeit bezieht sich auf die Fähigkeit, von einer Stichprobe auf andere Personen, Orte und Zeiten zu verallgemeinern. Traditionell handelt es sich bei der Kreuzvalidierung um die letztere und somit nach der obigen Definition um die externe Gültigkeit, während Sie angeben, dass es sich um die interne Gültigkeit handelt. Habe ich deine Aussage falsch verstanden?
Brett

1
@Brett Ich betrachtete CV als statistische Methode, um eine Überanpassung zu vermeiden oder um ein Maß für die Vorhersagegenauigkeit der Arbeitsprobe zu liefern (daher nicht unbedingt als spezielles Werkzeug zum Nachweis der internen Validität). Ich war nicht sehr klar, danke oder wies darauf hin. Ich bin damit einverstanden, dass dies dann zur Verallgemeinerung der vorliegenden Stichprobe verwendet wird, aber ich denke, dass es nichts mit kausaler Folgerung zu tun hat (der Lebenslauf beweist nichts über kausale Zusammenhänge, wie sie in der Arbeitssample modelliert sind). Ich teile Ihre Meinung zur externen Gültigkeit, aber um dies zu demonstrieren, brauchen wir andere Proben, nicht wahr?
Chl

1
Sie könnten diesen ersten Absatz klarstellen. Ich denke, Sie versuchen zu sagen, dass der Lebenslauf keine interne Gültigkeit hat. Das ist eine Sache für andere Prozesse. Wenn wir jedoch aus anderen Gründen eine gute interne Validität haben, kann CV dazu beitragen, diesen Effekt über Personen, Orte und Zeiten hinweg genauer abzuschätzen - dh die externe Validität zu verbessern. Ich kann mir immer noch nicht vorstellen, wie uns der Lebenslauf dabei helfen könnte, kausale Aussagen über die Beziehungen zwischen Variablen zu machen - die interne Gültigkeitsfrage selbst -, um einen etablierten kausalen Zusammenhang zu verallgemeinern.
Brett

1
@Brett Ich denke, Ihre Kommentare zu dieser Frage sind sehr sachdienlich und fassen einige der Themen sehr gut zusammen. Ich bezweifle, dass dies die Verwechslung zwischen interner und externer Validität zu diesem Zeitpunkt lindert, aber das Beispiel der genetischen Epidemiologie von Chl ist eigentlich ein Problem der internen Validität und nicht der externen Validität (mit Ausnahme der Heterogenität zwischen Datensätzen (oder der Populationsunterstruktur)), von der IMO weniger besorgniserregend als interne Gültigkeit in diesen Beispielen).
Andy W

2
Bretts Definition zwischen interner und externer Gültigkeit ist korrekt, aber für unsere Zwecke wird es hilfreich sein, sie in unterschiedlichen Begriffen zu definieren. Die externe Gültigkeit betrifft nur die Stichprobe und wie sich diese Stichprobe auf andere Populationen bezieht. Die interne Validität befasst sich mit verschiedenen Aspekten der geschätzten Auswirkungen und den Konstrukten, die zur Schätzung dieser Auswirkungen verwendet werden.
Andy W

12

Dies ist eine gute Frage, aber die Antwort lautet definitiv nein: Kreuzvalidierung wird die kausale Folgerung nicht verbessern. Wenn Sie eine Zuordnung zwischen Symptomen und Krankheiten haben, kann die Kreuzvalidierung sicherstellen, dass Ihr Modell besser mit der gemeinsamen Verteilung übereinstimmt, als wenn Sie Ihr Modell einfach an den gesamten Rohdatensatz angepasst hätten, aber es kann Ihnen nie etwas darüber sagen die Direktionalität der Kausalität.

Die Kreuzvalidierung ist sehr wichtig und lohnt sich zu studieren. Sie verhindert jedoch lediglich, dass Sie sich an das Rauschen in Ihrem Datensatz anpassen. Wenn Sie es besser verstehen möchten, empfehle ich Kapitel 7 der ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf


Vielen Dank für den Hinweis. Angenommen, Sie sind nicht über die Modellauswahl besorgt. Könnte eine Kreuzvalidierung der Effektschätzungen des Trainingsdatensatzes mit dem Hold-Out-Datensatz hilfreich sein?
Andy W

Es könnte sein, aber ich würde sagen, dass Sie an diesem Punkt im Grunde Bootstrapping (oder eine Variation davon) durchführen.
John Myles White

Ich bin damit einverstanden und denke, dass es regelmäßig andere Dinge gibt, die diese Art von Logik widerspiegeln (wie Teilmengen-Spezifitätstests oder nicht äquivalente abhängige Variablen). Ich habe die Frage einfach gestellt, weil ich mir vorstellte, dass es formalere Behandlungen gibt.
Andy W

Kommentare für Downvote sind immer willkommen!
Chl

Dieses Buch ist das Geschenk, das immer weiter gibt!
Hayd

6

Um auf das Follow-up zu antworten, gibt @Andy hier eine Antwort ...

Obwohl ich nicht sagen konnte, welche Schätzung richtig und welche falsch ist, wirft die Inkonsistenz zwischen den Schätzungen der Assault Conviction- und der Gun-Überzeugung zwischen den beiden Modellen keinen Zweifel darüber auf, ob eine der beiden Schätzungen einen wirklichen kausalen Effekt auf die Satzlänge hat?

Ich denke, was Sie meinen, ist die Diskrepanz in den Parameterschätzungen, die uns Grund zu der Annahme gibt, dass keine der Parameterschätzungen den wahren kausalen Effekt darstellt. Ich stimme dem zu, obwohl wir bereits Grund genug hatten, skeptisch zu sein, dass ein solches Modell die wahre kausale Wirkung entfalten würde.

Hier ist mein Ansatz: Überanpassungsdaten sind eine Quelle verzerrter Parameterschätzungen, und ohne Grund zu der Annahme, dass diese Verzerrung andere Verzerrungsquellen bei der Schätzung eines bestimmten Kausaleffekts ausgleicht, muss es im Durchschnitt besser sein, die Kausaleffekte zu schätzen ohne Überanpassung der Daten. Die Kreuzvalidierung verhindert eine Überanpassung und sollte daher die Schätzungen der kausalen Auswirkungen im Durchschnitt verbessern.

Wenn jedoch jemand versucht, mich davon zu überzeugen, dass seine Einschätzung eines kausalen Effekts auf Beobachtungsdaten beruht, ist der Nachweis, dass seine Daten nicht überbewertet wurden, eine niedrige Priorität, es sei denn, ich habe einen stichhaltigen Grund für den Verdacht, dass dies bei seiner Modellierungsstrategie wahrscheinlich der Fall ist Überanpassung.

In den sozialwissenschaftlichen Anwendungen, mit denen ich arbeite, beschäftige ich mich viel mehr mit Sachfragen, Messfragen und Sensitivitätsprüfungen. Mit Sensitivitätsprüfungen meine ich das Schätzen von Variationen des Modells, in dem Terme hinzugefügt oder entfernt werden, und das Schätzen von Modellen mit Interaktionen, die es ermöglichen, dass der interessierende Effekt zwischen Untergruppen variiert. Inwieweit wirken sich diese Änderungen am statistischen Modell auf die Parameterschätzung aus, die wir kausal interpretieren möchten? Sind die Diskrepanzen in dieser Parameterschätzung über Modellspezifikationen oder Untergruppen hinweg in Bezug auf die Kausalgeschichte, die Sie erzählen möchten, verständlich, oder deuten sie auf einen Effekt hin, der z. B. durch die Auswahl bestimmt wird.

In der Tat, bevor Sie diese alternativen Spezifikationen ausführen. Schreiben Sie auf, wie sich Ihre Parameterschätzung Ihrer Meinung nach ändern wird. Es ist großartig, wenn Ihre Parameterschätzung von Interesse nicht sehr stark zwischen Untergruppen oder Spezifikationen variiert - im Kontext meiner Arbeit ist dies wichtiger als eine Kreuzvalidierung. Aber andere inhaltliche Fragen, die meine Interpretation betreffen, sind noch wichtiger.


Vielen Dank fürs Abwägen! Ihre Sichtweise ist sicherlich eine sehr direkte Motivation für eine Kreuzvalidierung in Kausalmodellen, die ich selbst nie schlüssig formuliert hatte. IMO du verkaufst dich sogar ein bisschen kurz, indem du das Etikett der Überanpassung verwendest. Zum Beispiel kann ich im anfänglichen Erkundungssatz die Modellanpassung zwischen Gleichungen unter Verwendung einer unabhängigen Variablen auf der anfänglichen Skala im Vergleich zur logarithmischen Skala betrachten. Ich entscheide, dass das Modell mit der logarithmischen Skala besser passt, und verwende das dann im Hold-Out-Modell. Dies wird normalerweise nicht als zu passend angesehen (Auswahl zwischen dem einen oder anderen), Fortsetzung ...
Andy W

Passt aber immer noch zu dem Paradigma, das Sie in Ihrem hier aufgeführten Artikel vorgeschlagen haben.
Andy W

5

Ich danke allen für ihre Antworten, aber die Frage ist zu etwas herangewachsen, das ich nicht beabsichtigt habe. Es handelt sich hauptsächlich um einen Aufsatz über den allgemeinen Begriff der kausalen Folgerung ohne richtige Antwort.

Zunächst wollte ich das Publikum nach Beispielen für die Verwendung der Kreuzvalidierung für kausale Inferenz befragen. Ich hatte angenommen, dass solche Methoden existieren, da mir der Gedanke, eine Testprobe zu verwenden und eine Probe zur Beurteilung der Wiederholbarkeit von Effektschätzungen auszuhalten, logisch erschien. Wie John bemerkte, ist das, was ich vorschlug, dem Bootstrapping nicht unähnlich, und ich würde sagen, es ähnelt anderen Methoden, die wir zur Validierung von Ergebnissen verwenden, z Allgemeinere Tests werden verwendet, um zu überprüfen, ob die Ergebnisse in verschiedenen Situationen logisch sind. Keine dieser Methoden entspricht einem der anderen Antwortstandards für den Beweis von Kausalzusammenschlüssen, aber ich glaube, sie sind immer noch nützlich für Kausalzusammenschlüsse.

chls Kommentar ist insofern richtig, als meine Behauptung, Kreuzvalidierung zu verwenden, eine Überprüfung der internen Validität ist, um die kausale Folgerung zu unterstützen. Ich bitte Sie jedoch, die Unterscheidung zwischen innerer und äußerer Gültigkeit vorerst zu verwerfen, da sie die Debatte nicht fördert. chls Beispiel für genomweite Studien in der Epidemiologie Ich würde ein erstklassiges Beispiel für eine schlechte interne Validität betrachten, bei dem starke Schlussfolgerungen inhärent zweifelhaft sind. Ich denke, die Genomassoziationsstudien sind tatsächlich ein Beispiel für das, wonach ich gefragt habe. Denken Sie, dass die Schlussfolgerungen zwischen Genen und Krankheit durch die Verwendung von Kreuzvalidierung verbessert werden (im Gegensatz dazu, einfach alle Marker in ein Modell zu werfen und die p-Werte entsprechend anzupassen?)?

Unten habe ich eine Kopie einer Tabelle in den Berk-Artikel eingefügt, den ich in meiner Frage zitiert habe. Während diese Tabellen gezeigt wurden, um die falsche Logik der Verwendung schrittweiser Auswahlkriterien und kausaler Folgerungen für dasselbe Modell zu demonstrieren, stellen wir uns vor, dass keine Modellauswahlkriterien verwendet wurden, und die Parameter sowohl in der Trainings- als auch in der Hold-out-Stichprobe wurden von vornherein bestimmt. Das erscheint mir nicht unrealistisch. Obwohl ich nicht sagen konnte, welche Schätzung richtig und welche falsch ist, wirft die Inkonsistenz zwischen den Schätzungen der Assault Conviction- und der Gun-Überzeugung zwischen den beiden Modellen keinen Zweifel darüber auf, ob eine der beiden Schätzungen einen wirklichen kausalen Effekt auf die Satzlänge hat? Ist es nicht sinnvoll, diese Variante zu kennen? Wenn wir nichts verlieren, indem wir ein Hold-Out-Sample haben, um unser Modell zu testen, warum können wir dann keine Kreuzvalidierung verwenden, um die kausale Inferenz zu verbessern (oder ich vermisse, was wir verlieren, wenn wir ein Hold-Out-Sample verwenden?) Alt-Text


1
Ein Hinweis, warum dies abgelehnt wurde, wäre willkommen.
Andy W

2
Ich werde @Andy unterstützen und vorschlagen, beim Downvoting einen Kommentar zu hinterlassen: Es ist immer hilfreich, zu erfahren, was gegebenenfalls falsch ist. Besonders in diesem Fall: Andy W kam mit erweiterten Kommentaren von CW zurück, die meiner Meinung nach die ursprüngliche Frage weiter unterstützen. Hier müssen Sie nichts ablehnen!
Chl

1
Gibt Ihnen das Standardfehler- / Konfidenzintervall nicht bereits diesen Hinweis auf Variabilität? Ihre Schätzungen für das Test-Set sind in den Standard-Konfidenzintervallen Ihres Trainings-Sets enthalten. Ich hätte gedacht, kleine Standardfehler und enge CIs sind wichtig für die Kausalität.
Wahrscheinlichkeit

Ja, @wahrscheinlichistlogisch, Sie sind richtig. Ich glaube, als ich diesen Punkt ansprach, war dies nicht für eine Situation gedacht, in der Sie einen Lebenslauf auf einen bereits verfügbaren Datensatz anwenden, sondern auf einen Datensatz, der zu einem anderen Zeitpunkt erfasst wurde. Ich dachte, der Lebenslauf könnte hier nützlich sein, um kausale Aussagen zu untermauern, aber es ist mir immer noch nicht klar, ob dies der Fall ist. Ich habe nur gesehen, dass es für die Modellauswahl nützlich ist und das Modell in keiner Weise validiert (z. B. mein Modell mit diesen neuen Daten passt sehr gut).
Andy W

2
@ AriB.Friedman, erinnert mich an die philosophischen Zeichen von Ed Tufte , Korrelation ist keine Kausalität, aber sie hilft auf jeden Fall .
Andy W

1

Ich denke, dies ist eine intuitive Art, über die Beziehung zwischen Lebenslauf und kausaler Folgerung nachzudenken: (Bitte korrigieren, wenn ich falsch liege.)

Ich denke immer an einen Lebenslauf, um die Leistung eines Modells in Vorhersagen zu bewerten. In kausalen Schlussfolgerungen geht es uns jedoch eher um etwas, das Occams Rasiermesser (Sparsamkeit) entspricht, weshalb der Lebenslauf keine Hilfe darstellt.

Vielen Dank.


Der Grund, warum ich die Frage gestellt habe, ist, dass wir die Kreuzvalidierung nicht nur als einen Weg betrachten müssen, um die Vorhersagefähigkeit eines Modells zu bewerten. Es ist nicht ungewöhnlich zu befürchten, dass die Ergebnisse eines Modells (und die daraus abgeleiteten Schlussfolgerungen) aus vielen möglichen Gründen Artefakte sind. Daher möchten wir die Robustheit der Ergebnisse untersuchen, und ich stellte fest, dass eine Kreuzvalidierung ein nützlicher Kontext sein könnte, um die Robustheit der Ergebnisse zu untersuchen.
Andy W

Entschuldigung für die Fehlinterpretation.
Suncoolsu

Keine Notwendigkeit für Entschuldigungen. Ich bin derjenige, der anscheinend etwas Randloses vorschlägt, und die Kreuzvalidierung wird anscheinend immer in dem von Ihnen vorgeschlagenen Kontext verwendet.
Andy W

@suncoolsu, Wenn ich über kausale Folgerungen nachdenke, mache ich mir nie Sorgen um Occams Orparsimonie. Können Sie mir den Zusammenhang erklären?
Michael Bishop
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.