Ich weiß nicht genau, was Sie getan haben, daher würde mir Ihr Quellcode helfen, weniger zu erraten.
Viele zufällige Wälder sind im Wesentlichen Fenster, in denen der Durchschnitt das System darstellen soll. Es ist ein überglorifizierter CAR-Baum.
Nehmen wir an, Sie haben einen zweiblättrigen AUTO-Baum. Ihre Daten werden in zwei Stapel aufgeteilt. Die (konstante) Leistung jedes Pfahls ist der Durchschnitt.
Jetzt machen wir es 1000 mal mit zufälligen Teilmengen der Daten. Sie haben immer noch diskontinuierliche Regionen mit Ausgaben, die Durchschnittswerte sind. Der Gewinner in einer RF ist das häufigste Ergebnis. Das "Fuzzies" nur die Grenze zwischen Kategorien.
Beispiel für die stückweise lineare Ausgabe des CART-Baums:
Nehmen wir zum Beispiel an, dass unsere Funktion y = 0,5 * x + 2 ist. Ein Plot davon sieht wie folgt aus:
Wenn wir dies unter Verwendung eines einzelnen Klassifizierungsbaums mit nur zwei Blättern modellieren würden, würden wir zuerst den Punkt der besten Teilung finden, an diesem Punkt teilen und dann die Funktionsausgabe an jedem Blatt als Durchschnittsausgabe über das Blatt approximieren.
Wenn wir dies mit mehr Blättern im WARENKORB-Baum wiederholen, erhalten wir möglicherweise Folgendes:
Warum CAR-Wälder?
Sie können sehen, dass der WARENKORB-Baum in der Grenze der unendlichen Blätter ein akzeptabler Annäherungswert wäre.
Das Problem ist, dass die reale Welt laut ist. Wir denken gerne in Mitteln, aber die Welt mag sowohl die zentrale Tendenz (Mittelwert) als auch die Tendenz zur Variation (Standardentwicklung). Da ist Lärm.
Dasselbe, was einem CAR-Baum seine große Stärke verleiht, seine Fähigkeit, mit Diskontinuität umzugehen, macht ihn anfällig für das Modellieren von Rauschen, als wäre es ein Signal.
Also machte Leo Breimann einen einfachen, aber wirkungsvollen Vorschlag: Verwenden Sie Ensemble-Methoden, um Klassifikations- und Regressionsbäume robust zu machen. Er nimmt zufällige Teilmengen (eine Cousine von Bootstrap Resampling) und trainiert damit einen Wald von CAR-Bäumen. Wenn Sie eine Frage an den Wald stellen, spricht der gesamte Wald, und die häufigste Antwort wird als Ausgabe verwendet. Wenn Sie mit numerischen Daten arbeiten, kann es hilfreich sein, die Erwartung als Ausgabe zu betrachten.
Denken Sie beim zweiten Plot an die Modellierung mit einer zufälligen Gesamtstruktur. Jeder Baum hat eine zufällige Untermenge der Daten. Das bedeutet, dass die Position des "besten" Split-Punkts von Baum zu Baum variiert. Wenn Sie die Ausgabe der zufälligen Gesamtstruktur zeichnen und sich der Diskontinuität nähern, geben die ersten paar Zweige einen Sprung an, dann viele. Der Mittelwert in dieser Region durchläuft einen glatten Sigmoidpfad. Das Bootstrapping wird mit einem Gaußschen verwoben, und die Gaußsche Unschärfe auf dieser Schrittfunktion wird zu einem Sigmoiden.
Fazit:
Sie benötigen viele Zweige pro Baum, um eine gute Annäherung an eine sehr lineare Funktion zu erhalten.
Es gibt viele "Wählscheiben", die Sie ändern können, um die Antwort zu beeinflussen, und es ist unwahrscheinlich, dass Sie sie alle auf die richtigen Werte eingestellt haben.
Verweise: