Meine Frage betrifft die binäre Klassifizierung, beispielsweise die Trennung von guten und schlechten Kunden, aber nicht die Regression oder nicht-binäre Klassifizierung. In diesem Zusammenhang ist ein zufälliger Wald ein Ensemble von Klassifizierungsbäumen. Für jede Beobachtung stimmt jeder Baum mit "Ja" oder "Nein", und die durchschnittliche Stimme aller Bäume ist die endgültige Waldwahrscheinlichkeit.
Meine Frage bezieht sich auf das Ändern des Verhaltens der zugrunde liegenden Bäume: Wie können wir die randomForest-Funktion (des randomForest-Pakets von R) so ändern, dass jeder Baum eine Dezimalzahl anstelle eines binären Ja / Nein stimmt. Um besser zu verstehen, was ich mit Dezimalstelle meine, lassen Sie uns darüber nachdenken, wie Entscheidungsbäume funktionieren.
Ein ausgewachsener Entscheidungsbaum hat 1 gute oder 1 schlechte Instanz in seinen Endknoten. Angenommen, ich beschränke die Größe des Terminalknotens auf 100. Dann sehen die Terminalknoten folgendermaßen aus:
Knoten1 = 80 schlecht, 20 gut
Knoten2 = 51 schlecht, 49 gut
Knoten3 = 10 schlecht, 90 gut
Beachten Sie, dass, obwohl Node1 und Node2 "schlecht" stimmen, ihre "Stärke der Schlechtigkeit" stark unterschiedlich ist. Das ist es, wonach ich suche. Anstatt 1 oder 0 zu erzeugen (was das Standardverhalten ist), kann man das R-Paket so ändern, dass sie 80/100, 51/100, 10/100 usw. wählen?