Zur Bedeutung der iid-Annahme beim statistischen Lernen


54

Beim statistischen Lernen wird implizit oder explizit immer davon ausgegangen, dass die Trainingsmenge aus Eingabe- / Antworttupeln besteht , die unabhängig voneinander aus derselben gemeinsamen Verteilung gezogen werden mitD={X,y}N(Xich,yich) P(X,y)

p(X,y)=p(y|X)p(X)

und die Beziehung, die wir durch einen bestimmten Lernalgorithmus erfassen wollen. Mathematisch lautet diese Annahme:p(y|X)

(Xich,yich)P(X,y),ich=1,...,N(Xich,yich) unabhängig von (Xj,yj),ichj{1,...,N}

Ich denke, wir können uns alle einig sein, dass diese Annahme in der Praxis selten erfüllt ist. Sehen Sie sich diese verwandte SE-Frage und die weisen Kommentare von @Glen_b und @Luca an.

Meine Frage lautet daher:

Wo genau wird die iid-Annahme in der Praxis kritisch?

[Kontext]

Ich frage dies, weil ich mir viele Situationen vorstellen kann, in denen eine derart strenge Annahme nicht erforderlich ist, um ein bestimmtes Modell zu trainieren (z. B. lineare Regressionsmethoden), oder zumindest eine, die die iid-Annahme umgeht und robuste Ergebnisse erzielt. Tatsächlich bleiben die Ergebnisse in der Regel gleich, vielmehr werden sich die Schlussfolgerungen ändern (z. B. heteroskedastische und Autokorrelations-konsistente HAC-Schätzer in der linearen Regression) Finite-Sample-Verhalten des OLS-Schätzers zur Berücksichtigung der Verletzung der Gauß-Markov-Annahmen).

Ich vermute daher, dass die iid-Annahme nicht erforderlich ist, um einen bestimmten Lernalgorithmus zu trainieren, sondern um zu gewährleisten, dass Techniken wie die Kreuzvalidierung tatsächlich verwendet werden können, um ein zuverlässiges Maß für die Fähigkeit des Modells zur Verallgemeinerung abzuleiten , das ist das einzige, was uns am Ende des Tages am statistischen Lernen interessiert, weil es zeigt, dass wir tatsächlich aus den Daten lernen können. Intuitiv kann ich in der Tat verstehen, dass die Verwendung der Kreuzvalidierung für abhängige Daten optimistisch beeinflusst werden kann (wie in diesem interessanten Beispiel veranschaulicht / erläutert ).

Für mich hat iid also nichts mit dem Training eines bestimmten Modells zu tun, sondern mit der Generalisierbarkeit dieses Modells . Dies scheint mit einem Artikel übereinzustimmen, den ich von Huan Xu et al. Gefunden habe, siehe "Robustheit und Generalisierbarkeit für markovianische Proben" hier .

Würden Sie dem zustimmen?

[Beispiel]

Wenn dies die Diskussion helfen kann, sollten Sie das Problem des LASSO Algorithmus mit einer Smart Auswahl unter auszuführen Merkmalen gegeben N Trainingsproben ( X i , y i ) mit i = 1 , . . . , N Wir können ferner annehmen, dass:PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Die Eingaben sind abhängig, was zu einer Verletzung der iid-Annahme führt (z. B. beobachten wir für jedes Merkmal eine Punkt-Zeitreihe, wodurch eine zeitliche Autokorrelation eingeführt wird).j=1,. . ,PNXij=1,..,PN
  • Die bedingten Antworten sind unabhängig.yi|Xi
  • Wir haben .PN

Inwiefern kann die Verletzung der iid-Annahme in diesem Fall ein Problem darstellen, wenn wir vorhaben, den LASSO-Bestrafungskoeffizienten mithilfe eines Kreuzvalidierungsansatzes (für den vollständigen Datensatz) zu bestimmen + eine verschachtelte Kreuzvalidierung zu verwenden um ein Gefühl für den Generalisierungsfehler dieser Lernstrategie zu bekommen (wir können die Diskussion über die inhärenten Vor- und Nachteile des LASSO beiseite lassen, es sei denn, dies ist nützlich).λ


1
Können Sie einen Referenzrahmen angeben, der für Sie von Interesse ist, sodass die Diskussion nicht über alle Methoden hinweg zu breit ist? Sprechen wir hier von linearer Regression? Oder handelt es sich um eine Punktschätzung für Parameter mit beispielsweise MLE? Oder sprechen wir über das CLT-Framework?
Greenparker

2
Wenn Sie auch annehmen, dass abhängig ist, dann bestraft man bei einer bestraften logistischen Regression die log-Wahrscheinlichkeit. Wenn die Daten nicht unabhängig sind, können Sie die gemeinsame Protokollwahrscheinlichkeit nicht aufschreiben und somit das damit verbundene Optimierungsproblem nicht lösen. yi
Greenparker

1
Nein, ich denke in die andere Richtung - wenn Sie schnell zu einer iid-Annahme übergehen, können Sie möglicherweise Verzögerungen von nicht berücksichtigen (aus Gründen wie Unparteilichkeit, aber auch zur Schädigung der Vorhersagekraft), wenn Sie glauben, dass sie nicht benötigt werden. y
Christoph Hanck

3
Ich stimme nicht zu, dass die Annahme der Unabhängigkeit "häufig verletzt" wird. Zeitreihen sind ein ganz besonderer Fall - eher eine Ausnahme als ein typisches Beispiel. Diese Annahme ermöglicht es Ihnen, Ihr Modell zu vereinfachen und ein sparsameres zu erstellen, und sie kann häufig gemacht werden (z. B. werden Ihre Fälle zufällig gezogen, sodass sie als unabhängig angenommen werden können).
Tim

2
In dem zweiten Aufzählungspunkt des Beispiels sollten die nicht als bedingt iid angenommen werden. Sie können als bedingt unabhängig angenommen werden, aber es wird angenommen, dass die bedingte Verteilung von X i abhängt und sich daher mit i ändert . yiXii
NRH

Antworten:


32

Die iid-Annahme über die Paare , i = 1 , , N , wird häufig in der Statistik und beim maschinellen Lernen gemacht. Manchmal aus gutem Grund, manchmal aus Bequemlichkeit und manchmal nur, weil wir normalerweise diese Annahme machen. Um zufriedenstellend zu beantworten, ob die Annahme wirklich notwendig ist und was die Konsequenzen sind, wenn diese Annahme nicht gemacht wird, würde ich leicht ein Buch schreiben (falls Sie jemals so etwas leicht machen). Hier werde ich versuchen, einen kurzen Überblick über die meiner Meinung nach wichtigsten Aspekte zu geben.(Xi,yi)i=1,,N

Eine Grundannahme

Nehmen wir an, wir wollen ein Wahrscheinlichkeitsmodell von gegebenem X lernen , das wir p ( y X ) nennen . Wir machen keine Annahmen über dieses Modell zu einem Priorat, aber wir werden die minimale Annahme treffen, dass ein solches Modell so existiert, dassyXp(yX)

  • die bedingte Verteilung von gegebenem X i ist p ( y iX i ) .yiXip(yiXi)

Bemerkenswert an dieser Annahme ist, dass die bedingte Verteilung von von i nur über X i abhängt . Dies macht das Modell nützlich, z. B. für die Vorhersage. Die Annahme gilt als Konsequenz des identisch verteilten Teils unter der Annahme iid, ist aber schwächer, weil wir keine Annahmen über die X i machen .yiiXiXi

Im Folgenden wird der Schwerpunkt hauptsächlich auf der Rolle der Unabhängigkeit liegen.

Modellieren

Es gibt zwei Hauptansätze, um ein Modell von gegebenem X zu lernen . Ein Ansatz wird als diskriminative Modellierung und der andere als generative Modellierung bezeichnet.yX

  • Diskriminative Modellierung : Wir modellieren direkt, z. B. ein logistisches Regressionsmodell, ein neuronales Netzwerk, einen Baum oder einen zufälligen Wald. Die funktionierende Modellierungsannahme wird typischerweise sein, dass die y i - Werte in Anbetracht der X i - Werte bedingt unabhängig sind , obwohl Schätztechniken, die auf Unterabtastung oder Bootstrapping beruhen, unter der iid - oder der schwächeren Austauschbarkeitsannahme am sinnvollsten sind (siehe unten). Im Allgemeinen müssen wir für die diskriminative Modellierung keine verteilenden Annahmen über die X i machen . p(yX)yiXiXi
  • Generative Modellierung : Wir modellieren die Gelenkverteilung von ( X , Y ) in der Regel durch Modellierung der bedingten Verteilung p ( XY ) und der Randverteilung p ( Y ) . Dann verwenden wir die Bayes-Formel zur Berechnung von p ( y X ) . Beispiele sind die lineare Diskriminanzanalyse und naive Bayes-Methoden. Die Arbeitsmodellannahme wird typischerweise die iid-Annahme sein.p(X,y)(X,y)p(Xy)p(y)p(yX)

Für beide Modellierungsansätze wird die Arbeitsmodellierungsannahme verwendet, um Lernmethoden (oder Schätzer) abzuleiten oder vorzuschlagen. Dies könnte durch Maximierung der (bestraften) Log-Wahrscheinlichkeit, Minimierung des empirischen Risikos oder durch Verwendung von Bayes-Methoden geschehen. Auch wenn die Annahme der Arbeitsmodellierung falsch ist, kann die resultierende Methode eine sinnvolle Anpassung von liefern . p(yX)

Einige Techniken, die zusammen mit der diskriminativen Modellierung verwendet werden, z. B. Bagging (Bootstrap-Aggregation), passen viele Modelle an Daten an, die zufällig aus dem Datensatz entnommen wurden. Ohne die iid-Annahme (oder Austauschbarkeit) weisen die neu abgetasteten Datensätze keine gemeinsame Verteilung auf, die der des Originaldatensatzes ähnelt. Jede Abhängigkeitsstruktur wurde durch das Resampling "durcheinander gebracht". Ich habe nicht tief darüber nachgedacht, aber ich verstehe nicht, warum das die Methode als Methode zum Lernen von unbedingt brechen sollte . Zumindest nicht für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit beruhen. Ich bin froh, dass ich mich hier geirrt habe.p(yX)

Konsistenz- und Fehlergrenzen

Eine zentrale Frage für alle Lernmethoden ist, ob sich daraus Modelle in der Nähe von . Es gibt eine umfangreiche theoretische Literatur zu Statistik und maschinellem Lernen, die sich mit Konsistenz und Fehlergrenzen befasst. Ein Hauptziel dieser Literatur ist zu beweisen , dass das gelernte Modell zu schließen ist p ( y | X ) , wenn N groß ist. Konsistenz ist eine qualitative Zusicherung, während Fehlergrenzen eine (halb-) explizite quantitative Kontrolle der Nähe ermöglichen und Konvergenzraten angeben.p(yX)p(yX)N

Die theoretischen Ergebnisse beruhen alle auf Annahmen über die gemeinsame Verteilung der Beobachtungen im Datensatz. Häufig werden die oben genannten Annahmen zur Arbeitsmodellierung getroffen (dh bedingte Unabhängigkeit für die diskriminative Modellierung und iid für die generative Modellierung). Konsistenz und Fehlergrenzen erfordern für die diskriminative Modellierung, dass die bestimmte Bedingungen erfüllen. In der klassischen Regression ist eine solche Bedingung, dass 1XichfürN, wobeiXdie Entwurfsmatrix mit den ZeilenX T i bezeichnet . Schwächere Bedingungen können für die Konsistenz ausreichen. In spärlichen Lernen ist ein weiterer solcher Zustand der eingeschränkte Eigenwert Zustand, siehe zBvon den verwendeten Bedingungen zu oracle Ergebnisse für das Lasso zu beweisen. Die iid-Annahme zusammen mit einigen technischen Verteilungsannahmen impliziert, dass einige dieser ausreichenden Bedingungen mit großer Wahrscheinlichkeit erfüllt sind, und daher kann sich die iid-Annahme als ausreichende, aber nicht notwendige Annahme erweisen, um Konsistenz und Fehlergrenzen für die diskriminative Modellierung zu erhalten.1NXTXΣNXXichT

Die Annahme einer funktionierenden Modellierung der Unabhängigkeit kann für jeden der Modellierungsansätze falsch sein. Als grobe Faustregel kann man immer noch Konsistenz erwarten, wenn die Daten aus einem ergodischen Prozess stammen , und man kann immer noch einige Fehlergrenzen erwarten, wenn der Prozess ausreichend schnell gemischt wird . Eine genaue mathematische Definition dieser Begriffe würde uns zu weit von der Hauptfrage entfernen. Es genügt anzumerken, dass es neben der iid-Annahme Abhängigkeitsstrukturen gibt, für die nachgewiesen werden kann, dass die Lernmethoden funktionieren, da gegen unendlich tendiert.N

Wenn wir detailliertere Kenntnisse über die Abhängigkeitsstruktur haben, können wir die für die Modellierung verwendete Annahme der Arbeitsunabhängigkeit durch ein Modell ersetzen, das auch die Abhängigkeitsstruktur erfasst. Dies wird häufig für Zeitreihen durchgeführt. Ein besseres Arbeitsmodell kann zu einer effizienteren Methode führen.

Modellbewertung

Anstatt zu beweisen , dass das Lernverfahren ein Modell nahe an gibt es von großem praktischem Wert ist eine (relative) Beurteilung „ wie gut ein gelehrtes Modell“ zu erhalten. Solche Bewertungsergebnisse sind für zwei oder mehr gelernte Modelle vergleichbar, liefern jedoch keine absolute Bewertung der Nähe eines gelernten Modells zu p ( y X ) . Schätzungen der Bewertungsergebnisse werden in der Regel empirisch auf der Grundlage der Aufteilung des Datensatzes in einen Trainings- und einen Testdatensatz oder durch Kreuzvalidierung berechnet.p(yX)p(yX)

Wie beim Absacken wird eine zufällige Aufteilung des Datensatzes jede Abhängigkeitsstruktur "durcheinander bringen". Für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit basieren, sollten jedoch Ergodizitätsannahmen, die schwächer als iid sind, ausreichen, damit die Schätzungen für die Bewertung angemessen sind, obwohl Standardfehler bei diesen Schätzungen sehr schwierig zu finden sein werden.

[ Bearbeiten: Die Abhängigkeit zwischen den Variablen führt zu einer Verteilung des gelernten Modells, die sich von der Verteilung unter der iid-Annahme unterscheidet. Die durch Kreuzvalidierung erzeugte Schätzung hängt offensichtlich nicht mit dem Generalisierungsfehler zusammen. Wenn die Abhängigkeit stark ist, handelt es sich höchstwahrscheinlich um eine schlechte Schätzung.]

Zusammenfassung (tl; dr)

All dies unter der Annahme, dass es ein Modell mit fester bedingter Wahrscheinlichkeit gibt, . Daher kann es keine Trends oder plötzlichen Änderungen in der bedingten Verteilung geben, die nicht von X erfasst werden .p(yX)X

Beim Erlernen eines Modells von gegebenem X spielt die Unabhängigkeit eine Rolle alsyX

  • Eine nützliche Modellierungsannahme, die es uns ermöglicht, Lernmethoden abzuleiten
  • eine ausreichende, aber nicht notwendige Annahme zum Nachweis der Konsistenz und zur Angabe von Fehlergrenzen
  • Eine ausreichende, aber nicht notwendige Annahme für die Verwendung zufälliger Datenaufteilungstechniken wie das Einsacken zum Lernen und die Kreuzvalidierung zur Bewertung.

Genau zu verstehen, welche Alternativen zu iid auch ausreichen, ist nicht trivial und zum Teil ein Forschungsgegenstand.


2
Dies ist eine sehr gute Antwort. Es ist genau richtig und gibt mir genug Referenz für das Selbststudium. Vielen Dank für das @NRH, ich bin begeistert. Ich lasse das Kopfgeld einfach, um andere zu ermutigen, die Frage anzunehmen, aber ich habe dies bereits als akzeptierte Antwort markiert, da es alle meine ursprünglichen Bedenken auf wunderbare Weise anspricht.
Quantuple

10

Was iid Annahme Staaten ist , dass Zufallsvariablen sind unabhängig und identisch verteilt . Sie können formal definieren, was es bedeutet, aber informell heißt es, dass alle Variablen unabhängig voneinander die gleiche Art von Informationen liefern (Sie können auch über die damit zusammenhängende Austauschbarkeit nachlesen ).

Lassen Sie uns von den abstrakten Ideen einen Moment zu einem konkreten Beispiel springen: In den meisten Fällen können Ihre Daten in einer Matrix gespeichert werden, wobei die Beobachtungen zeilenweise und die Variablen spaltenweise erfolgen. Wenn Sie davon ausgehen, dass Ihre Daten id sind , bedeutet dies für Sie, dass Sie sich nur um die Beziehungen zwischen Spalten und nicht um die Beziehungen zwischen Zeilen kümmern müssen. Wenn Sie sich um beides kümmern würden, würden Sie die Abhängigkeit von Spalten und Zeilen von Zeilen modellieren, dh alles von allem. Es ist sehr schwierig, Vereinfachungen vorzunehmen und ein statistisches Modell für alles zu erstellen, das von allem abhängt.

Sie haben zu Recht bemerkt, dass die Austauschbarkeit es uns ermöglicht, Methoden wie Cross-Validation oder Bootstrap zu verwenden, aber auch den zentralen Grenzwertsatz zu verwenden und Vereinfachungen für die Modellierung hilfreich zu machen (spaltenweise zu denken) ).

Wie Sie im LASSO-Beispiel bemerkt haben, wird die Annahme der Unabhängigkeit häufig zu einer bedingten Unabhängigkeit gemildert . Auch in diesem Fall benötigen wir unabhängige und identisch verteilte "Teile". Ähnliche, weichere Annahmen werden häufig für Zeitreihenmodelle gemacht, die Sie erwähnt haben und die Stationarität annehmen (es besteht also eine Abhängigkeit, aber es gibt auch eine gemeinsame Verteilung, und die Reihen stabilisieren sich im Laufe der Zeit - wieder "iid" -Teile). Es geht darum, eine Reihe ähnlicher Dinge zu beobachten, die dieselbe Vorstellung von einem allgemeinen Phänomen haben. Wenn wir eine Reihe von unterschiedlichen und abhängigen Dingen haben, können wir keine Verallgemeinerungen vornehmen.

Was Sie beachten müssen, ist, dass dies nur eine Annahme ist, wir sind nicht streng. Es geht darum, genug Dinge zu haben, die alle unabhängig voneinander ähnliche Informationen über ein gemeinsames Phänomen vermitteln. Wenn die Dinge sich gegenseitig beeinflussen würden, würden sie offensichtlich ähnliche Informationen übermitteln, sodass sie nicht so nützlich wären.

Stellen Sie sich vor, Sie wollten in einem Klassenzimmer etwas über die Fähigkeiten von Kindern lernen, und Sie geben ihnen einige Tests. Sie können die Testergebnisse nur dann als Indikator für die Fähigkeiten von Kindern verwenden, wenn sie diese unabhängig voneinander selbst durchgeführt haben. Wenn sie interagieren würden, würden Sie wahrscheinlich die Fähigkeiten des klügsten oder einflussreichsten Kindes messen. Es bedeutet nicht, dass Sie davon ausgehen müssen, dass es keinerlei Wechselwirkung oder Abhängigkeit zwischen Kindern gab, sondern dass sie die Tests alleine durchgeführt haben. Die Kinder müssen auch "identisch verteilt" sein, damit sie nicht aus verschiedenen Ländern kommen, verschiedene Sprachen sprechen, in verschiedenen Altersgruppen sein können, da es schwierig wird, die Ergebnisse zu interpretieren (vielleicht haben sie die Fragen nicht verstanden und zufällig beantwortet). Wenn Sie davon ausgehen können, dass Ihre Daten iid sindDann können Sie sich auf die Erstellung eines allgemeinen Modells konzentrieren. Sie können mit Nicht- ID- Daten umgehen , müssen sich dann aber viel mehr Gedanken über "Rauschen" in Ihren Daten machen.


Neben Ihrer Hauptfrage stellen Sie auch Fragen zur Kreuzvalidierung mit Non- ID- Daten. Während Sie die Bedeutung der iid- Annahme zu unterschätzen scheinen, übertreiben Sie gleichzeitig die Probleme, die sich aus der Nichteinhaltung dieser Annahme für die Kreuzvalidierung ergeben. Es gibt mehrere Möglichkeiten, wie wir mit solchen Daten umgehen können, wenn wir Resampling-Methoden wie Bootstrap oder Cross-Validation verwenden. Wenn Sie sich mit Zeitreihen beschäftigen, können Sie nicht davon ausgehen, dass die Werte unabhängig sind. Daher wäre es eine schlechte Idee, den zufälligen Bruchteil der Werte zu verwenden, da die autokorrelierte Struktur der Daten ignoriert wird. Aus diesem Grund verwenden wir bei Zeitreihen in der Regel eine Kreuzvalidierung, die einen Schritt voraus istDas heißt, Sie nehmen an der Serie teil, um den nächsten Wert vorherzusagen (nicht für die Modellierung verwendet). Wenn Ihre Daten über eine Clusterstruktur verfügen , können Sie auch ganze Cluster untersuchen , um die Art der Daten zu erhalten. So wie bei der Modellierung können wir auch bei der Kreuzvalidierung mit Non- ID- Sness umgehen , aber wir müssen unsere Methoden an die Art der Daten anpassen, da Methoden, die für ID- Daten entwickelt wurden, in solchen Fällen nicht anwendbar sind.


yich|XichXich

(ctd) ... Mit anderen Worten, obwohl Ihre Antwort das iid-Konzept definitiv beleuchtet, möchte ich auf technischer Basis mehr wissen: Wenn dies verletzt wird, welche Auswirkungen hat dies?
Quantuple

@Quantuple dann verwenden Sie Methoden für nicht-ID-Daten, z. B. in Zeitreihen, die ganze Datenblöcke in Bootstrap usw. abtasten.
Tim

Danke noch einmal. Ich erinnere mich in der Tat, irgendwo über solche Techniken gelesen zu haben. Gibt es eine Quelle, in der alle potenziellen Kandidatenmethoden erörtert werden? Ich bin gerade auf die Arbeit von C. Bergmeir, R. Hyndman und B. Koo gestoßen. "Eine Anmerkung zur Gültigkeit der Kreuzvalidierung für die Bewertung der Vorhersage von Zeitreihen", die ich so bald wie möglich zu lesen versuchen werde.
Quantuple

1
@Quantuple check classic "Eine Einführung in den Bootstrap" von Efron und Tibshirani und "Bootstrap Methods and Their Application" von Davison und Hinkley, um mehr über den Bootstrap zu erfahren (dieselben Ideen gelten für die Kreuzvalidierung). Zeitreihenhandbücher beschreiben, wie Kreuzvalidierung und Bootstrap für solche Daten verwendet werden (dh Kreuzvalidierung einen Schritt voraus). Überprüfe auch meine Bearbeitung.
Tim

3

Der einzige Ort, an dem man iid ignorieren kann, sind Statistikkurse für Studenten und Kurse für maschinelles Lernen. Sie haben geschrieben, dass:

man kann die iid-Annahme umgehen und robuste Ergebnisse erzielen. Eigentlich werden die Ergebnisse normalerweise gleich bleiben, es sind eher die Schlussfolgerungen, die man ziehen kann, die sich ändern werden ...

Dies gilt nur, wenn die Funktionsform der Modelle als grundsätzlich korrekt vorausgesetzt wird. Eine solche Annahme ist jedoch noch weniger plausibel als iid.

Es gibt mindestens zwei Möglichkeiten, wie iid für die angewandte Modellierung von entscheidender Bedeutung ist:

  1. Dies ist eine explizite Annahme bei den meisten statistischen Schlussfolgerungen, wie Sie in Ihrer Frage bemerken. In den meisten realen Modellen müssen wir zu einem bestimmten Zeitpunkt Inferenzen verwenden, um die Spezifikation zu testen, z. B. während der Variablenauswahl und des Modellvergleichs. Obwohl die jeweilige Modellanpassung trotz Verstößen gegen IID in Ordnung sein kann, können Sie trotzdem das falsche Modell auswählen.

  2. Ich finde, dass das Durchdenken von Verstößen gegen iid eine nützliche Methode ist, um über den Mechanismus der Datengenerierung nachzudenken, was mir wiederum hilft, über die geeignete Spezifikation eines Modells von vornherein nachzudenken. Zwei Beispiele:

    • Wenn die Daten geclustert sind, liegt ein Verstoß gegen iid vor. Abhilfe kann ein Mischmodell schaffen. Die Schlussfolgerung, die ich aus einem Mischmodell ziehen werde, ist im Allgemeinen völlig anders als die, die ich aus OLS ziehe.
    • Nichtlineare Beziehungen zwischen abhängigen und unabhängigen Variablen treten häufig auf, wenn Residuen im Rahmen der Untersuchung von iid untersucht werden.

Natürlich habe ich es in so ziemlich jedem Modell, das ich jemals gebaut habe, nicht geschafft, die Verteilung der Residuen auf irgendetwas zu reduzieren, das einer wirklich normalen Verteilung nahekommt. Trotzdem gewinne ich immer viel, wenn ich mich wirklich sehr anstrenge, es zu tun.


Vielen Dank für Ihre Antwort, die sehr aufschlussreich ist. Mit dem letzten Satz von (1) meinen Sie, dass Sie mehrere Modelle mit einer angemessenen Anpassung an die beobachteten Daten haben können, aber wenn Sie Standardtechniken zur Modellauswahl verwenden (z. B. Kreuzvalidierung), werden Sie nicht das beste auswählen ( in Bezug auf die Generalisierbarkeit), weil die Schlussfolgerung, die Sie ziehen, aufgrund der IID-Verletzung voreingenommen ist? (2) Scheint mir, als würden Sie über IID-Residuen als Teil einer Funktionsspezifikation (z. B. Regressions-Residuen) sprechen, die nicht ungültig macht, was Sie schreiben (ctd) ...
Quantuple

(ctd) ... aber die ursprüngliche Frage bezog sich auf nicht-iid-Trainingsbeispiele (x, y) und nicht-iid-Residuen nach Schätzung eines Modells. Ich vermute, meine Frage könnte lauten: Wenn Sie nicht-ID-Trainingsbeispiele (z. B. Zeitreihen) haben, müssen Sie einen Vorverarbeitungsschritt hinzufügen, um sie ID zu machen? Wenn Sie dies nicht tun und das Standardverfahren anwenden, um Ihr Modell abzuschätzen / zu validieren, wo liegt der Vorbehalt?
Quantuple

1
Wenn Sie nicht-iid-Schulungsbeispiele haben, besteht die Idee darin, ein Modell zu finden, das die nicht-iid-Natur berücksichtigt und Residuen erzeugt, die iid sind. Während es einige Probleme gibt, bei denen eine Vorverarbeitung der Daten sinnvoll ist (z. B. Transformationen von Variablen in der linearen Regression), lassen sich viele IID-Probleme besser lösen, indem ein Modell gefunden wird, das das IID-Problem explizit anspricht. ZB Übertragungsfunktionen in Zeitreihen oder hierarchische Modelle in Querschnittsdaten.
Tim

Ich stimme der Tatsache zu, dass Zeitreihendaten in der Regel in irgendeiner Form abhängig sind, und daher das Ziel natürlich ist, dies über darauf zugeschnittene statistische Modelle, z. B. Übertragungsfunktionen, zu erfassen. Dies betrifft die Ausbildung. Nun, was die Kreuzvalidierung (CV) betrifft, brauche ich wohl auch spezielle Methoden, um die Nicht-Identität zu berücksichtigen? Ich meine, die Verwendung von Übertragungsfunktionen hat nichts an der Tatsache geändert, dass meine Daten nicht an erster Stelle stehen. Gibt es irgendwo eine Liste solcher Spezialmethoden? Wie groß ist die optimistische Tendenz bei Verwendung der Standard-CV-Methode mit Non-ID-Daten?
Quantuple

1
Dies hängt von der Art der Kreuzvalidierungsmethode und dem Problem ab. Ich denke, der Trick besteht darin, Kreuzvalidierungsmethoden zu verwenden, die nicht implizit nach iid strukturiert sind. Zum Beispiel würde ein Jacknife wenig Sinn machen. Eine Aufteilung der Stichprobe in Schätz-, Test- und Validierungsstichproben wäre jedoch wahrscheinlich. Aber das ist wirklich eine andere Frage als Ihre ursprüngliche, und es ist nicht mein Fachgebiet.
Tim

2

Meiner Meinung nach gibt es zwei eher banale Gründe, warum die iid-Annahme für das statistische Lernen (oder für Statistiken im Allgemeinen) wichtig ist.

  1. Viele Hintergründe der Mathematik hängen von dieser Annahme ab. Wenn Sie nachweisen möchten, dass Ihre Lernmethode tatsächlich für mehr als einen Datensatz funktioniert, wird diese Annahme irgendwann zutage treten. Es ist möglich, dies zu vermeiden, aber die Mathematik wird um ein Vielfaches schwieriger.

  2. Wenn Sie etwas aus Daten lernen möchten, müssen Sie davon ausgehen, dass es etwas zu lernen gibt. Lernen ist unmöglich, wenn jeder Datenpunkt durch einen anderen Mechanismus erzeugt wird. Man muss also davon ausgehen, dass etwas einen bestimmten Datensatz vereinheitlicht. Wenn wir davon ausgehen, dass die Daten zufällig sind, handelt es sich natürlich um eine Wahrscheinlichkeitsverteilung, da die Wahrscheinlichkeitsverteilung alle Informationen über die Zufallsvariable umfasst.

    X1,...,XnXichFn

    (X1,...,Xn)Fn.

    FnFmnmnFnFnnFn=Fn,XichFFnFmnF


XyX

(ctd) ... aber wie Sie in Ihrem ersten Aufzählungspunkt angegeben haben, wird die Annahme von iid-Trainingsbeispielen zurückkommen, wenn wir uns die Verallgemeinerungseigenschaften des LASSO ansehen. Was nett wäre (und nach was ich verzweifelt suche, denke ich), ist eine Referenz / einfache technische Erklärung, die zeigt, wie die Verletzung der iid-Annahme zum Beispiel eine optimistische Verzerrung in den Kreuzvalidierungsschätzer einführt.
Quantuple

yich=α+β1X1ich+εichich=1,...,n/2yich=α+β2X2ich+εichich=n/2+1,...,nX1ichX2ich

ich=1,...,n/2ich=n/2+1,...,n

XE[y|X]

1

Ich möchte betonen, dass die Daten unter Umständen nicht eindeutig sind und statistisches Lernen weiterhin möglich ist. Es ist entscheidend, ein identifizierbares Modell für die gemeinsame Verteilung aller Beobachtungen zu haben. Wenn die Beobachtungen gleich sind, ergibt sich diese gemeinsame Verteilung leicht aus der Randverteilung einzelner Beobachtungen. In einigen Fällen wird die gemeinsame Verteilung jedoch direkt angegeben, ohne auf eine marginale Verteilung zurückzugreifen.

Y.=Xα+Zu+ε
Y.RnXRn×pαRpZRn×quRqεRnXZαuuN(0,τichq)εN(0,σ2ichn)τσ2

Y.

Y.N(Xα,τZZ+σ2ichn).
ατσ2Y.n
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.