Die iid-Annahme über die Paare , i = 1 , … , N , wird häufig in der Statistik und beim maschinellen Lernen gemacht. Manchmal aus gutem Grund, manchmal aus Bequemlichkeit und manchmal nur, weil wir normalerweise diese Annahme machen. Um zufriedenstellend zu beantworten, ob die Annahme wirklich notwendig ist und was die Konsequenzen sind, wenn diese Annahme nicht gemacht wird, würde ich leicht ein Buch schreiben (falls Sie jemals so etwas leicht machen). Hier werde ich versuchen, einen kurzen Überblick über die meiner Meinung nach wichtigsten Aspekte zu geben.( Xich, yich)i = 1 , … , N
Eine Grundannahme
Nehmen wir an, wir wollen ein Wahrscheinlichkeitsmodell von gegebenem X lernen , das wir p ( y ∣ X ) nennen . Wir machen keine Annahmen über dieses Modell zu einem Priorat, aber wir werden die minimale Annahme treffen, dass ein solches Modell so existiert, dassyXp ( y∣ X )
- die bedingte Verteilung von gegebenem X i ist p ( y i ≤ X i ) .yichXichp ( yich∣ Xich)
Bemerkenswert an dieser Annahme ist, dass die bedingte Verteilung von von i nur über X i abhängt . Dies macht das Modell nützlich, z. B. für die Vorhersage. Die Annahme gilt als Konsequenz des identisch verteilten Teils unter der Annahme iid, ist aber schwächer, weil wir keine Annahmen über die X i machen .yichichXichXich
Im Folgenden wird der Schwerpunkt hauptsächlich auf der Rolle der Unabhängigkeit liegen.
Modellieren
Es gibt zwei Hauptansätze, um ein Modell von gegebenem X zu lernen . Ein Ansatz wird als diskriminative Modellierung und der andere als generative Modellierung bezeichnet.yX
- Diskriminative Modellierung : Wir modellieren direkt, z. B. ein logistisches Regressionsmodell, ein neuronales Netzwerk, einen Baum oder einen zufälligen Wald. Die funktionierende Modellierungsannahme wird typischerweise sein, dass die y i - Werte in Anbetracht der X i - Werte bedingt unabhängig sind , obwohl Schätztechniken, die auf Unterabtastung oder Bootstrapping beruhen, unter der iid - oder der schwächeren Austauschbarkeitsannahme am sinnvollsten sind (siehe unten). Im Allgemeinen müssen wir für die diskriminative Modellierung keine verteilenden Annahmen über die X i machen . p ( y∣ X )yichXichXich
- Generative Modellierung : Wir modellieren die Gelenkverteilung von ( X , Y ) in der Regel durch Modellierung der bedingten Verteilung p ( X ∣ Y ) und der Randverteilung p ( Y ) . Dann verwenden wir die Bayes-Formel zur Berechnung von p ( y ∣ X ) . Beispiele sind die lineare Diskriminanzanalyse und naive Bayes-Methoden. Die Arbeitsmodellannahme wird typischerweise die iid-Annahme sein.p ( X , y)( X , y)p ( X ∣ y)p ( y)p ( y∣ X )
Für beide Modellierungsansätze wird die Arbeitsmodellierungsannahme verwendet, um Lernmethoden (oder Schätzer) abzuleiten oder vorzuschlagen. Dies könnte durch Maximierung der (bestraften) Log-Wahrscheinlichkeit, Minimierung des empirischen Risikos oder durch Verwendung von Bayes-Methoden geschehen. Auch wenn die Annahme der Arbeitsmodellierung falsch ist, kann die resultierende Methode eine sinnvolle Anpassung von liefern . p ( y∣ X )
Einige Techniken, die zusammen mit der diskriminativen Modellierung verwendet werden, z. B. Bagging (Bootstrap-Aggregation), passen viele Modelle an Daten an, die zufällig aus dem Datensatz entnommen wurden. Ohne die iid-Annahme (oder Austauschbarkeit) weisen die neu abgetasteten Datensätze keine gemeinsame Verteilung auf, die der des Originaldatensatzes ähnelt. Jede Abhängigkeitsstruktur wurde durch das Resampling "durcheinander gebracht". Ich habe nicht tief darüber nachgedacht, aber ich verstehe nicht, warum das die Methode als Methode zum Lernen von unbedingt brechen sollte . Zumindest nicht für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit beruhen. Ich bin froh, dass ich mich hier geirrt habe.p ( y∣ X )
Konsistenz- und Fehlergrenzen
Eine zentrale Frage für alle Lernmethoden ist, ob sich daraus Modelle in der Nähe von . Es gibt eine umfangreiche theoretische Literatur zu Statistik und maschinellem Lernen, die sich mit Konsistenz und Fehlergrenzen befasst. Ein Hauptziel dieser Literatur ist zu beweisen , dass das gelernte Modell zu schließen ist p ( y | X ) , wenn N groß ist. Konsistenz ist eine qualitative Zusicherung, während Fehlergrenzen eine (halb-) explizite quantitative Kontrolle der Nähe ermöglichen und Konvergenzraten angeben.p ( y∣ X )p ( y∣ X )N
Die theoretischen Ergebnisse beruhen alle auf Annahmen über die gemeinsame Verteilung der Beobachtungen im Datensatz. Häufig werden die oben genannten Annahmen zur Arbeitsmodellierung getroffen (dh bedingte Unabhängigkeit für die diskriminative Modellierung und iid für die generative Modellierung). Konsistenz und Fehlergrenzen erfordern für die diskriminative Modellierung, dass die bestimmte Bedingungen erfüllen. In der klassischen Regression ist eine solche Bedingung, dass 1XichfürN→∞, wobeiXdie Entwurfsmatrix mit den ZeilenX T i bezeichnet . Schwächere Bedingungen können für die Konsistenz ausreichen. In spärlichen Lernen ist ein weiterer solcher Zustand der eingeschränkte Eigenwert Zustand, siehe zBvon den verwendeten Bedingungen zu oracle Ergebnisse für das Lasso zu beweisen. Die iid-Annahme zusammen mit einigen technischen Verteilungsannahmen impliziert, dass einige dieser ausreichenden Bedingungen mit großer Wahrscheinlichkeit erfüllt sind, und daher kann sich die iid-Annahme als ausreichende, aber nicht notwendige Annahme erweisen, um Konsistenz und Fehlergrenzen für die diskriminative Modellierung zu erhalten.1NXTX →ΣN→ ∞XXTich
Die Annahme einer funktionierenden Modellierung der Unabhängigkeit kann für jeden der Modellierungsansätze falsch sein. Als grobe Faustregel kann man immer noch Konsistenz erwarten, wenn die Daten aus einem ergodischen Prozess stammen , und man kann immer noch einige Fehlergrenzen erwarten, wenn der Prozess ausreichend schnell gemischt wird . Eine genaue mathematische Definition dieser Begriffe würde uns zu weit von der Hauptfrage entfernen. Es genügt anzumerken, dass es neben der iid-Annahme Abhängigkeitsstrukturen gibt, für die nachgewiesen werden kann, dass die Lernmethoden funktionieren, da gegen unendlich tendiert.N
Wenn wir detailliertere Kenntnisse über die Abhängigkeitsstruktur haben, können wir die für die Modellierung verwendete Annahme der Arbeitsunabhängigkeit durch ein Modell ersetzen, das auch die Abhängigkeitsstruktur erfasst. Dies wird häufig für Zeitreihen durchgeführt. Ein besseres Arbeitsmodell kann zu einer effizienteren Methode führen.
Modellbewertung
Anstatt zu beweisen , dass das Lernverfahren ein Modell nahe an gibt es von großem praktischem Wert ist eine (relative) Beurteilung „ wie gut ein gelehrtes Modell“ zu erhalten. Solche Bewertungsergebnisse sind für zwei oder mehr gelernte Modelle vergleichbar, liefern jedoch keine absolute Bewertung der Nähe eines gelernten Modells zu p ( y ∣ X ) . Schätzungen der Bewertungsergebnisse werden in der Regel empirisch auf der Grundlage der Aufteilung des Datensatzes in einen Trainings- und einen Testdatensatz oder durch Kreuzvalidierung berechnet.p ( y∣ X )p ( y∣ X )
Wie beim Absacken wird eine zufällige Aufteilung des Datensatzes jede Abhängigkeitsstruktur "durcheinander bringen". Für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit basieren, sollten jedoch Ergodizitätsannahmen, die schwächer als iid sind, ausreichen, damit die Schätzungen für die Bewertung angemessen sind, obwohl Standardfehler bei diesen Schätzungen sehr schwierig zu finden sein werden.
[ Bearbeiten: Die Abhängigkeit zwischen den Variablen führt zu einer Verteilung des gelernten Modells, die sich von der Verteilung unter der iid-Annahme unterscheidet. Die durch Kreuzvalidierung erzeugte Schätzung hängt offensichtlich nicht mit dem Generalisierungsfehler zusammen. Wenn die Abhängigkeit stark ist, handelt es sich höchstwahrscheinlich um eine schlechte Schätzung.]
Zusammenfassung (tl; dr)
All dies unter der Annahme, dass es ein Modell mit fester bedingter Wahrscheinlichkeit gibt, . Daher kann es keine Trends oder plötzlichen Änderungen in der bedingten Verteilung geben, die nicht von X erfasst werden .p ( y∣ X )X
Beim Erlernen eines Modells von gegebenem X spielt die Unabhängigkeit eine Rolle alsyX
- Eine nützliche Modellierungsannahme, die es uns ermöglicht, Lernmethoden abzuleiten
- eine ausreichende, aber nicht notwendige Annahme zum Nachweis der Konsistenz und zur Angabe von Fehlergrenzen
- Eine ausreichende, aber nicht notwendige Annahme für die Verwendung zufälliger Datenaufteilungstechniken wie das Einsacken zum Lernen und die Kreuzvalidierung zur Bewertung.
Genau zu verstehen, welche Alternativen zu iid auch ausreichen, ist nicht trivial und zum Teil ein Forschungsgegenstand.