Worauf bezieht sich „Knotengröße“ in der zufälligen Gesamtstruktur?


Antworten:


24

Ein Entscheidungsbaum funktioniert durch rekursive Aufteilung des Trainingssatzes. Jedem Knoten eines Entscheidungsbaums ist ein Satz von Datenpunkten aus dem Trainingssatz zugeordnet:tnt

n_t ist die Größe jedes Knotens

Sie finden den Parameter möglicherweise nodesizein einigen zufälligen Gesamtstrukturpaketen, z. B. R : Dies ist die Mindestknotengröße. Im obigen Beispiel beträgt die Mindestknotengröße 10. Dieser Parameter legt implizit die Tiefe Ihrer Bäume fest.

nodesize von R zufälliges Waldpaket

Mindestgröße der Endknoten. Wenn Sie diese Zahl größer einstellen, werden kleinere Bäume angebaut (was weniger Zeit in Anspruch nimmt). Beachten Sie, dass die Standardwerte für Klassifizierung (1) und Regression (5) unterschiedlich sind.

In anderen Paketen finden Sie direkt den Parameter depth, zB WEKA :

-depth aus dem WEKA Random Forest Package

Die maximale Tiefe der Bäume, 0 für unbegrenzt. (Standard 0)


1
Was sind Aufzeichnungen? Meinen Sie Datenpunkte? Warum ist jeder Knoten einer Reihe von Datensätzen zugeordnet? Ich verstehe zufällige Wälder recht gut, aber ich weiß nicht, was der Jargon bedeutet.
Wolfsatthedoor

Ja, ich meinte Datenpunkt. Normalerweise können Sie Datenpunkte als Datensätze, Instanzen oder Beispiele bezeichnen.
Simone

Gibt es also eine Faustregel für die Mindestknotengröße, um eine Überanpassung der Bäume zu vermeiden? Ich würde mir vorstellen, dass es von der Größe der Trainingsdaten abhängt, also vielleicht ein gewisser Anteil der Datensatzgröße?
Seanosapien

1
In zufälligen Wäldern sind die Bäume ausgewachsen: Die Knotengröße ist 1. Überanpassung wird vermieden, wenn viele Bäume wachsen. Im Entscheidungsbaum ist es schwieriger. Bäume sind nicht ausgewachsen und Sie müssen beschneiden, um eine Überanpassung zu vermeiden.
Simone

1
Es sieht so aus, als wäre Winnowing eine Art Feature-Auswahl, um den Baum zu vereinfachen und eine Überanpassung zu vermeiden. Ich denke, einen einzelnen Baum zu beschneiden ist immer von Vorteil. Stattdessen kann das Winning manchmal die Genauigkeit verringern, aber den Baum vereinfachen.
Simone

2

Es ist nicht klar, ob sich die Knotengröße in der "In-Bag" -Abtastung oder im "Out-Bag" -Fehler befindet. Wenn es sich um ein "Out-of-Bag" -Sample handelt, ist es etwas restriktiver.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.