Statistiken und Big Data random-forest

4

Sollte man sich Gedanken über Multi-Kollinearität machen, wenn man nichtlineare Modelle verwendet?

Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum? Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, …

13 classification random-forest multicollinearity xgboost

3

Wie modelliere ich Longitudinal Big Data?

Traditionell verwenden wir ein gemischtes Modell, um longitudinale Daten zu modellieren, dh Daten wie: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 Wir können für verschiedene Personen zufällige …

13 machine-learning data-transformation random-forest panel-data large-data

1

Bewerten Sie Random Forest: OOB vs CV

Wenn wir die Qualität einer zufälligen Gesamtstruktur beurteilen, zum Beispiel mithilfe der AUC, ist es angemessener, diese Mengen anhand der Out-of-Bag-Proben oder anhand des Hold-out-Satzes der Kreuzvalidierung zu berechnen. Ich habe gehört, dass die Berechnung über die OOB-Samples eine pessimistischere Einschätzung ergibt, aber ich verstehe nicht, warum.

13 cross-validation random-forest auc

3

Sind Random Forest und Boosting parametrisch oder nicht parametrisch?

Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen. Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen …

13 machine-learning data-mining random-forest boosting bagging

3

Zufällige Gesamtstruktur aus mehrstufigen / hierarchisch strukturierten Daten

Ich bin ziemlich neu im maschinellen Lernen, in CART-Techniken und ähnlichem, und ich hoffe, dass meine Naivität nicht zu offensichtlich ist. Wie geht Random Forest mit mehrstufigen / hierarchischen Datenstrukturen um (z. B. wenn eine Interaktion über mehrere Ebenen von Interesse ist)? Das heißt, Datensätze mit Analyseeinheiten auf mehreren hierarchischen …

13 machine-learning random-forest multilevel-analysis cart

1

Zufälliger Wald und Vorhersage

Ich versuche zu verstehen, wie Random Forest funktioniert. Ich habe ein Gespür dafür, wie Bäume gebaut werden, kann aber nicht verstehen, wie Random Forest Vorhersagen aus Sackproben macht. Kann mir bitte jemand eine einfache Erklärung geben? :)

13 random-forest prediction

2

Wann sollten Sie Ihre Variablen protokollieren / erweitern, wenn Sie Modelle mit zufälligen Gesamtstrukturen verwenden?

Ich mache eine Regression mit Random Forests, um Preise basierend auf mehreren Attributen vorherzusagen. Code wird in Python mit Scikit-learn geschrieben. Wie entscheiden Sie, ob Sie Ihre Variablen mit exp/ transformieren sollen, logbevor Sie sie für das Regressionsmodell verwenden? Ist es notwendig, einen Ensemble-Ansatz wie Random Forest zu verwenden?

13 regression machine-learning predictive-models python random-forest

3

PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?

Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?

13 classification pca random-forest dimensionality-reduction high-dimensional

6

Zufällige Gesamtstruktur: Wie gehe ich mit neuen Faktorstufen im Testsatz um?

Ich versuche Vorhersagen mit einem zufälligen Waldmodell in R zu machen. Ich erhalte jedoch Fehler, da einige Faktoren im Testsatz andere Werte haben als im Trainingssatz. Beispielsweise hat ein Faktor Cat_2Werte34, 68, 76 usw. in der Testmenge, die nicht in der Trainingsmenge erscheinen. Leider habe ich keine Kontrolle über das …

13 r categorical-data random-forest

3

Gibt es eine Formel oder Regel zur Bestimmung der richtigen Größe für einen randomForest?

Ich spiele mit einem randomForest und habe festgestellt, dass das Erhöhen von sampSize im Allgemeinen zu einer besseren Leistung führt. Gibt es eine Regel / Formel / etc, die vorschlägt, wie die optimale Größe von sampSize sein soll, oder handelt es sich um eine Versuchs- und Irrtumssache? Ich denke, eine …

13 r random-forest

1

Wie nutzt der Kinect zufällige Wälder?

Ich habe auf dieser Site gelesen, dass der Kinect anscheinend den Zufallsalgorithmus für das maschinelle Lernen verwendet. Kann jemand erklären, wofür zufällige Wälder verwendet werden und wie ihr Ansatz funktioniert?

13 machine-learning random-forest application

2

Ist Random Forest für sehr kleine Datenmengen geeignet?

Ich habe einen Datensatz mit 24 Zeilen monatlicher Daten. Die Merkmale sind BIP, Flughafenankünfte, Monat und einige andere. Die abhängige Variable ist die Anzahl der Besucher eines beliebten Tourismusziels. Wäre Random Forest für ein solches Problem geeignet? Die Daten sind nicht öffentlich, daher kann ich kein Beispiel veröffentlichen.

13 random-forest small-sample

2

Best Practices für die Codierung kategorialer Funktionen für Entscheidungsbäume?

Bei der Codierung kategorialer Merkmale für die lineare Regression gilt die Regel: Die Anzahl der Dummies sollte eins weniger sein als die Gesamtzahl der Ebenen (um Kollinearität zu vermeiden). Gibt es eine ähnliche Regel für Entscheidungsbäume (eingesackt, verstärkt)? Ich frage dies, weil eine Standardpraxis in Python darin zu bestehen scheint, …

13 categorical-data random-forest cart boosting

5

Random Forest- und Decision Tree-Algorithmus

Ein zufälliger Wald ist eine Sammlung von Entscheidungsbäumen, die dem Absackkonzept folgen. Wenn wir von einem Entscheidungsbaum zum nächsten übergehen, wie werden dann die Informationen, die der letzte Entscheidungsbaum gelernt hat, zum nächsten weitergeleitet? Denn meines Wissens gibt es nichts Vergleichbares wie ein trainiertes Modell, das für jeden Entscheidungsbaum erstellt …

12 machine-learning random-forest cart bagging

1

Warum wird in Random Forest eine zufällige Teilmenge von Features auf Knotenebene und nicht auf Baumebene ausgewählt?

Meine Frage: Warum werden in zufälligen Gesamtstrukturen zufällige Teilmengen von Features für die Aufteilung auf Knotenebene in jedem Baum berücksichtigt, anstatt auf Baumebene ? Hintergrund: Dies ist so etwas wie eine historische Frage. Tin Kam Ho veröffentlichte diesen Aufsatz über die Konstruktion von "Entscheidungswäldern", indem er 1998 zufällig eine Teilmenge …

12 machine-learning feature-selection random-forest importance history

Als «random-forest» getaggte Fragen