Warum nehmen wir den Durchschnitt für Regressionsvorhersagen für zufällige Wälder?


8

In allen (Regressions-) zufälligen Waldpapieren, die ich gelesen habe, nehmen wir, wenn es an der Zeit ist, die Vorhersagen aller Bäume zu sammeln, den Durchschnittswert als Vorhersage.

Meine Frage ist, warum wir das tun?

Gibt es eine statistische Begründung für die Ermittlung des Durchschnitts?

EDIT: Um die Frage zu klären, weiß ich, dass es möglich ist, andere Aggregationsfunktionen zu verwenden (wir verwenden den Modus zur Klassifizierung). Ich bin hauptsächlich daran interessiert, ob es eine theoretische Rechtfertigung für die Wahl der Durchschnittsfunktion gibt.



Antworten:


5

Ich habe immer über die Mittelung in Bezug auf den Bias-Varianz-Kompromiss nachgedacht. Wenn ich mich richtig erinnere, hat Leo Breiman dies in der RandomForest-Zeitung mit seiner Aussage angedeutet: "... sind robuster in Bezug auf Lärm."

Die Erklärung lautet wie folgt: Im Grunde genommen nehmen Sie eine Reihe von Bäumen, die in voller Länge gewachsen sind - kein Beschneiden -, damit Sie wissen, dass sie alle für sich voreingenommen sind. Die Zufallsstichprobe, die jeden Baum im Wald induziert, sollte jedoch ebenso oft eine Unter- oder eine Übervorspannung hervorrufen. Wenn Sie also einen Durchschnitt nehmen, eliminieren Sie die Verzerrung jedes Baums - das Über + unter Verzerrungen, die aufgehoben werden. Hoffentlich reduzieren Sie dabei auch die Varianz in jedem Baum und daher sollte auch die Gesamtvarianz reduziert werden.

Wie aus den anderen Antworten auf den Beitrag hervorgeht, ist dies möglicherweise nicht der einzige Grund für die Mittelwertbildung.


1
Akzeptiere dies, da die Antwort scheint, dass der Durchschnitt aus "Intuition" ausgewählt wird, eher eine bestimmte theoretische Motivation, im Gegensatz zu der theoretisch motivierten Antwort auf GLMs: stats.stackexchange.com/q/174390/16052
Bar

1
@Bar, mit Entscheidungsbäumen ist das Problem wirklich, dass die globale Optimierung NP-hart ist, so dass eine gierige Optimierung durchgeführt wird. Die gierige Optimierung für jeden Baum sagt nichts über den Wald aus. Leider ist die Mathematik für dieses Problem weniger entwickelt, als jeder von uns möchte.
Lucas Roberts

5

Wenn Sie den Durchschnitt verwenden, sagen Sie zwei Dinge:

  1. Ausreißer sind kein großes Problem (andernfalls würden Sie den Median verwenden oder zumindest einige Ausreißer herausfiltern, bevor Sie den Durchschnitt ermitteln).
  2. Jede Vorhersage hat das gleiche Gewicht (andernfalls würden Sie Gewichte berücksichtigen)

Sie sollten nicht damit rechnen, dass es große Ausreißer gibt, da Sie die Stichprobengröße so groß machen können, dass sie im Durchschnitt weniger wichtig sind, und Sie von den Vorhersagen der einzelnen Bäume ein Minimum an Stabilität erwarten würden.

Es gibt keinen Grund zu der Annahme, dass einige Bäume ein höheres Vorhersagegewicht als andere haben sollten, noch eine Möglichkeit, solche Gewichte zu bestimmen.

Sie können den Modus nicht wirklich verwenden, da die Vorhersagen kontinuierlich sind. Wenn Sie beispielsweise die Vorhersagen 80 80 100 101 99 98 97 102 103 104 96 hätten, würde der Modus 80 vorhersagen. Das kann nicht das sein, was Sie wollen. Wenn alle Werte unterschiedliche Dezimalstellen haben, weiß der Modus nicht, wie er sich entscheiden soll.

Es gibt andere Mittelwerte als das arithmetische Mittel, wie das geometrische Mittel und das harmonische Mittel. Sie sind so konzipiert, dass sie den Durchschnitt senken, wenn die Datenreihe einige niedrige Werte enthält. Das wollen Sie auch hier nicht.


1
Wenn Ausreißer ein Problem darstellen, gibt es Alternativen zwischen dem Median und dem Stichprobenmittelwert, wie z. B. gewinnorientierte oder getrimmte Mittelwerte, die einen guten Ausreißerschutz bieten und gleichzeitig effizienter als der Median sind.
kjetil b halvorsen

3

Natürlich können Sie jede Aggregationsfunktion verwenden, die in Ihrer speziellen Situation nützlich ist. Der Median ist eine gute Möglichkeit, eine kleine Stichprobe gegenüber Ausreißern robust zu machen. In Regressionswäldern können Sie normalerweise die Stichprobengröße beeinflussen, um das Problem kleiner Stichprobengrößen zu vermeiden. Daher erscheint der Mittelwert in einem sehr großen Teil der Anwendungsfälle sinnvoll.


1

Wäre es nicht auch möglich, den Median, den Modus oder eine andere Aggregatfunktion zu verwenden?

Die zufällige Waldklassifizierung ( dh keine Wahrscheinlichkeitsschätzung) basiert auf dem Modus der Vorhersagen (Mehrheitsentscheidung). Sie können also die Ergebnisse nach Belieben aggregieren.


Vielen Dank für die Antwort. Ich habe meiner Frage eine Klarstellung hinzugefügt. Ich weiß, dass es möglich ist, andere Aggregationsfunktionen zu verwenden. Ich frage mich, ob es einen theoretischen Grund für die Wahl des Durchschnitts gibt.
Bar

1

Das wichtigste zuerst. Wie viele andere Leute sagten, können Sie andere Metriken verwenden, aber der Durchschnitt ist die "Standard" -Option.

Als Standardoption würde man eine Funktion einstellen, die unter milden Bedingungen funktioniert

Wenn Sie darüber nachdenken, ist ein zufälliger Wald eine Sammlung von Bäumen, und jeder dieser Bäume hat das Ziel, Ihre numerische Antwortvariable zu schätzen.

Zusätzlich, wie @David Ernst richtig erwähnt:

Es gibt keinen Grund zu der Annahme, dass einige Bäume prädiktivere Gewichte haben sollten als andere, und es gibt auch keine Möglichkeit, solche Gewichte zu bestimmen.

Darüber hinaus gibt es keinen Grund zu der Annahme, dass diese Bäume unterschiedliche Standardabweichungen aufweisen. Wieder unter milden Bedingungen!

Davon abgesehen sollte der Durchschnitt aufgrund des schwachen Gesetzes großer Zahlen funktionieren


-1

Im Ensemble. Bei der Mittelwertbildung wird mehr Wert auf Vertrauen als auf Mehrheit gelegt.

Beispiel Sie haben 3 Bäume,

2 von ihnen stimmen mit 22% Vertrauen für A und 1 mit 90% für B.

Wenn wir die Mehrheit verwenden, erhalten wir Stimme A. Durchschnitt von 22, N, N Wenn wir Vertrauen verwenden, erhalten wir Stimme B. Durchschnitt von 90, N, N.

Es wäre sinnvoll, das 90% ige Vertrauen zu wählen, da es sicherer ist als die Mehrheit der anderen mit nur 22% Vertrauen.


Mir ist nicht ganz klar, worum es Ihnen geht. Können Sie es vielleicht bearbeiten, um es zu verdeutlichen? Was würde passieren, wenn es 100 A und nur ein B mit denselben Vertrauensbewertungen gäbe?
Mdewey
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.