Als «random-forest» getaggte Fragen

Random Forest ist eine maschinelle Lernmethode, die auf der Kombination der Ergebnisse vieler Entscheidungsbäume basiert.

4
Sollte man sich Gedanken über Multi-Kollinearität machen, wenn man nichtlineare Modelle verwendet?
Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum? Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, …


1
Bewerten Sie Random Forest: OOB vs CV
Wenn wir die Qualität einer zufälligen Gesamtstruktur beurteilen, zum Beispiel mithilfe der AUC, ist es angemessener, diese Mengen anhand der Out-of-Bag-Proben oder anhand des Hold-out-Satzes der Kreuzvalidierung zu berechnen. Ich habe gehört, dass die Berechnung über die OOB-Samples eine pessimistischere Einschätzung ergibt, aber ich verstehe nicht, warum.

3
Sind Random Forest und Boosting parametrisch oder nicht parametrisch?
Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen. Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen …

3
Zufällige Gesamtstruktur aus mehrstufigen / hierarchisch strukturierten Daten
Ich bin ziemlich neu im maschinellen Lernen, in CART-Techniken und ähnlichem, und ich hoffe, dass meine Naivität nicht zu offensichtlich ist. Wie geht Random Forest mit mehrstufigen / hierarchischen Datenstrukturen um (z. B. wenn eine Interaktion über mehrere Ebenen von Interesse ist)? Das heißt, Datensätze mit Analyseeinheiten auf mehreren hierarchischen …

1
Zufälliger Wald und Vorhersage
Ich versuche zu verstehen, wie Random Forest funktioniert. Ich habe ein Gespür dafür, wie Bäume gebaut werden, kann aber nicht verstehen, wie Random Forest Vorhersagen aus Sackproben macht. Kann mir bitte jemand eine einfache Erklärung geben? :)

2
Wann sollten Sie Ihre Variablen protokollieren / erweitern, wenn Sie Modelle mit zufälligen Gesamtstrukturen verwenden?
Ich mache eine Regression mit Random Forests, um Preise basierend auf mehreren Attributen vorherzusagen. Code wird in Python mit Scikit-learn geschrieben. Wie entscheiden Sie, ob Sie Ihre Variablen mit exp/ transformieren sollen, logbevor Sie sie für das Regressionsmodell verwenden? Ist es notwendig, einen Ensemble-Ansatz wie Random Forest zu verwenden?

3
PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?
Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?




2
Ist Random Forest für sehr kleine Datenmengen geeignet?
Ich habe einen Datensatz mit 24 Zeilen monatlicher Daten. Die Merkmale sind BIP, Flughafenankünfte, Monat und einige andere. Die abhängige Variable ist die Anzahl der Besucher eines beliebten Tourismusziels. Wäre Random Forest für ein solches Problem geeignet? Die Daten sind nicht öffentlich, daher kann ich kein Beispiel veröffentlichen.

2
Best Practices für die Codierung kategorialer Funktionen für Entscheidungsbäume?
Bei der Codierung kategorialer Merkmale für die lineare Regression gilt die Regel: Die Anzahl der Dummies sollte eins weniger sein als die Gesamtzahl der Ebenen (um Kollinearität zu vermeiden). Gibt es eine ähnliche Regel für Entscheidungsbäume (eingesackt, verstärkt)? Ich frage dies, weil eine Standardpraxis in Python darin zu bestehen scheint, …

5
Random Forest- und Decision Tree-Algorithmus
Ein zufälliger Wald ist eine Sammlung von Entscheidungsbäumen, die dem Absackkonzept folgen. Wenn wir von einem Entscheidungsbaum zum nächsten übergehen, wie werden dann die Informationen, die der letzte Entscheidungsbaum gelernt hat, zum nächsten weitergeleitet? Denn meines Wissens gibt es nichts Vergleichbares wie ein trainiertes Modell, das für jeden Entscheidungsbaum erstellt …

1
Warum wird in Random Forest eine zufällige Teilmenge von Features auf Knotenebene und nicht auf Baumebene ausgewählt?
Meine Frage: Warum werden in zufälligen Gesamtstrukturen zufällige Teilmengen von Features für die Aufteilung auf Knotenebene in jedem Baum berücksichtigt, anstatt auf Baumebene ? Hintergrund: Dies ist so etwas wie eine historische Frage. Tin Kam Ho veröffentlichte diesen Aufsatz über die Konstruktion von "Entscheidungswäldern", indem er 1998 zufällig eine Teilmenge …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.