Bewerten Sie Random Forest: OOB vs CV


13

Wenn wir die Qualität einer zufälligen Gesamtstruktur beurteilen, zum Beispiel mithilfe der AUC, ist es angemessener, diese Mengen anhand der Out-of-Bag-Proben oder anhand des Hold-out-Satzes der Kreuzvalidierung zu berechnen.

Ich habe gehört, dass die Berechnung über die OOB-Samples eine pessimistischere Einschätzung ergibt, aber ich verstehe nicht, warum.

Antworten:


12

Hinweis: Während ich der Meinung bin, dass meine Antwort wahrscheinlich richtig ist, bin ich auch zweifelhaft, weil ich mir das alles ausgedacht habe, indem ich über dieses Problem nach ca. 30-60 Minuten nachgedacht habe. Seien Sie also skeptisch und hinterfragen Sie dies genauer und lassen Sie sich nicht von meinem möglicherweise zu selbstbewussten Schreibstil täuschen (große Wörter und ausgefallene griechische Symbole bedeuten nicht, dass ich Recht habe).

Zusammenfassung

Dies ist nur eine Zusammenfassung. Alle Einzelheiten sind in den nachfolgenden Abschnitten §1 und §2 .

Nehmen wir den Fall der Klassifikation an (kann auch auf die Regression ausgedehnt werden, aber der Kürze halber weglassen). Im Wesentlichen ist es unser Ziel, den Fehler eines Waldes von Bäumen abzuschätzen. Sowohl der Out-of-Bag-Fehler als auch die k-fache Kreuzvalidierung versuchen, die Wahrscheinlichkeit zu ermitteln, dass:

  • Die Gesamtstruktur gibt die richtige Klassifizierung an (die k-fache Kreuzvalidierung sieht so aus).

Welches ist identisch mit der Wahrscheinlichkeit, dass:

  • Das Mehrheitsvotum der Waldbäume ist das richtige (OOBE sieht es so).

Und beide sind identisch. Der einzige Unterschied besteht darin, dass die k-fache Kreuzvalidierung und OOBE eine unterschiedliche Größe der Lernstichproben voraussetzen. Beispielsweise:

  • Bei der 10-fachen Kreuzvalidierung beträgt der Lernsatz 90%, während der Testsatz 10% beträgt.
  • Wenn jedoch in OOBE jeder Beutel Proben enthält, so dass n = Gesamtzahl der Proben im gesamten Probensatz ist , bedeutet dies, dass der Lernsatz praktisch etwa 66% (zwei Drittel) und der Testsatz etwa 33% beträgt ( ein Drittel).nn=

Meiner Ansicht nach ist der einzige Grund, warum OOBE eine pessimistische Schätzung des Waldfehlers ist, nur der, dass normalerweise eine geringere Anzahl von Stichproben trainiert wird als normalerweise bei der k-fachen Kreuzvalidierung (wobei 10-fache häufig sind).

Aus diesem Grund denke ich auch, dass die zweifache Kreuzvalidierung eine pessimistischere Einschätzung des Gesamtstrukturfehlers sein wird als die dreifache Kreuzvalidierung, die ungefähr genauso pessimistisch ist wie die OOBE.

1. Grundlegendes zum Out-of-Bag-Fehler

1.1 Gemeinsame Sicht auf das Absacken

Jeder Baum in RF wird durch eine Liste von Stichproben gezüchtet , die zufällig aus dem Lernsatz X mit Ersetzung gezogen werden. Auf diese Weise können die n vielen Stichproben Duplikate haben, und wenn n = |nXndann kann festgestellt werden, dass ungefähr ein Drittel der Proben in X wahrscheinlich nicht in der Liste von n Proben enthalten ist, die zum Züchten eines bestimmten Baums verwendet werden (dies sind die Out-of-Bag-Proben dieses bestimmten Baums). Dieser Vorgang wird für jeden Baum unabhängig wiederholt, sodass für jeden Baum ein anderer Satz von Out-of-Bag-Proben vorhanden ist.n=|X|Xn

1.2. Ein anderer Blick auf das Absacken

Lassen Sie uns nun das Absacken ein wenig anders beschreiben, in der Hoffnung, eine gleiche Beschreibung zu finden, die hoffentlich einfacher zu handhaben ist.

Ich tue dies, indem ich sage, dass der Baum durch die eingepackten Proben in der Menge X tX trainiert wirdtXtX . Dies trifft jedoch nicht genau zu, da die Menge keine duplizierten Samples enthält (so funktionieren Sets), während die Liste n von Samples Duplikate enthalten kann.Xtn

Daher kann man sagen, dass ein Baum durch Analysieren der Proben X t plus einer Anzahl zufällig ausgewählter Duplikate, die aus X t gezogen wurden , nämlich X t , 1 , X t , 2 , ... , X t , rX t , wie z dass: | X t | + r i = 1 | XtXt XtXt,1,Xt,2,,Xt,rXt

|Xt|+i=1r|Xt,i|=n

Es ist trivial zu sehen, dass aus dieser Sammlung von Mengen C={Xt,Xt,1,,Xt,r} wir eine Liste von vielen Stichproben definieren können, die Duplikate enthalten, indem wir einfach die Elemente in jeder Menge anhängen setze C iC auf ein Array a . Auf diese Weise, für jeden 1 p n , gibt es wenigstens einen Wert von i , so daß ein [ p ] C inCiCa1pnia[p]Ci.

naXt§2a

1.3. Bagging vereinfachen

Anstatt Baum wachsen zu lassentaXt

ntXtta

Xt

Und der Grund, aus dem ich glaube, dass sich Entropien für eine bestimmte Teilung nicht systematisch ändern werden, ist, dass sich die empirisch gemessene Wahrscheinlichkeit, dass eine Stichprobe eine bestimmte Bezeichnung in einer Teilmenge aufweist (nach Anwendung einer Entscheidungsaufteilung), ebenfalls nicht ändert.

Xtd

1.4 Messung von Out-of-Bag-Fehlern

OttOt=XXtt

total x in Ot correctly classified by t|Ot|
nt
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2. Verstehen der k-fach Kreuzvalidierung

XnkK={K1,K2,,Knk}K1K2Knk=XKi,KjKKiKj=

KtK{Kt}

fK{Kt}

f

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

f

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.