Eigentlich schreibe ich eine Implementierung von Random Forests, aber ich glaube, die Frage ist spezifisch für Entscheidungsbäume (unabhängig von RFs).
Der Kontext ist also, dass ich einen Knoten in einem Entscheidungsbaum erstelle und sowohl die Vorhersage- als auch die Zielvariable kontinuierlich sind. Der Knoten hat einen aufgeteilten Schwellenwert, um Daten in zwei Mengen zu unterteilen, und ich erstelle eine neue Vorhersage für jede Teilmenge basierend auf dem durchschnittlichen Zielwert in jeder Menge. Ist das der richtige Ansatz?
Der Grund, den ich frage, ist, dass ich bei der Vorhersage binärer Variablen der Meinung bin, dass der typische (richtige?) Ansatz darin besteht, die Daten in 0- und 1-Teilmengen zu unterteilen, ohne einen Durchschnitt über die Datenzeilen in jeder Teilmenge zu bilden. Nachfolgende Aufteilungen teilen sich in feinkörnigere Untergruppen auf und bilden bei jeder Aufteilung einen Durchschnitt der nachfolgenden Aufteilungen (weiter unten im Entscheidungsbaum), die auf nunmehr kontinuierlichen Variablen und nicht auf binären Variablen basieren (weil wir auf den verbleibenden Fehlerwerten anstelle des Originals arbeiten) Ziele).
Nebenfrage: Ist der Unterschied zwischen den beiden Ansätzen (binär und kontinuierlich) signifikant - oder liefern sie tatsächlich identische Ergebnisse für einen vollständigen Entscheidungsbaum?