Ich habe die folgenden Beiträge gelesen, die die Frage beantwortet haben, die ich stellen wollte:
Verwenden Sie das Random Forest-Modell, um Vorhersagen aus Sensordaten zu treffen
Entscheidungsbaum für die Ausgabevorhersage
Folgendes habe ich bisher getan: Ich habe die logistische Regression mit zufälligen Wäldern verglichen und RF hat die logistische Leistung übertroffen. Jetzt wollen die medizinischen Forscher, mit denen ich zusammenarbeite, meine RF-Ergebnisse in ein medizinisches Diagnosewerkzeug verwandeln. Zum Beispiel:
Wenn Sie ein asiatischer Mann zwischen 25 und 35 Jahren sind, Vitamin D unter xx und Blutdruck über xx haben, haben Sie eine 76% ige Chance, eine Krankheit xxx zu entwickeln.
RF eignet sich jedoch nicht für einfache mathematische Gleichungen (siehe obige Links). Hier ist meine Frage: Welche Ideen haben Sie alle, um mithilfe von RF ein Diagnosetool zu entwickeln (ohne Hunderte von Bäumen exportieren zu müssen)?
Hier sind einige meiner Ideen:
- Verwenden Sie RF für die Variablenauswahl und dann Logistik (unter Verwendung aller möglichen Interaktionen), um die Diagnosegleichung zu erstellen.
- Aggregieren Sie den RF-Wald irgendwie zu einem "Mega-Baum", der die Knotenaufteilung über Bäume hinweg irgendwie mittelt.
- Verwenden Sie ähnlich wie bei Nr. 2 und Nr. 1 RF, um Variablen auszuwählen (z. B. insgesamt m Variablen), erstellen Sie dann Hunderte von Klassifizierungsbäumen, die alle jede m Variable verwenden, und wählen Sie dann den besten Einzelbaum aus.
Irgendwelche anderen Ideen? Es ist auch einfach, # 1 zu machen, aber gibt es Ideen, wie man # 2 und # 3 implementiert?