Statistiken und Big Data random-forest

2

Erstellen eines Klassifizierungsmodells für streng binäre Daten

Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false. Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist. Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen …

8 machine-learning classification svm random-forest bayesian-network

1

Ignoriert RandomForest die räumliche Unabhängigkeit?

Ich habe 5 Variablen für jedes Land der Welt und ich muss deren Auswirkungen und Wechselwirkungen auf eine unabhängige Variable analysieren. Random Forest wäre für meinen Anwendungsbereich angemessen, da es sich um nichtlineare Beziehungen handelt und die Wichtigkeit von Variablen vorhersagt. Ich frage mich jedoch, ob räumliche Abhängigkeit ein Problem …

8 random-forest spatial independence

4

Wie wähle ich die Aufteilung in Random Forest für kategoriale Prädiktoren (Features) aus?

Ich verstehe, wie die beste Aufteilung für zufällige Gesamtstrukturen für numerische Prädiktoren (Merkmale) gewählt wird. Numerische Prädiktoren werden dann sortiert, dann wird für jeden Wert eine Gini-Verunreinigung oder Entropie berechnet und ein Schwellenwert ausgewählt, der die beste Aufteilung ergibt. Aber wie wird die beste Aufteilung für den kategorialen Prädiktor gewählt, …

8 machine-learning random-forest

3

Wie führe ich eine unbeaufsichtigte Random Forest-Klassifizierung mit Breimans Code durch?

Ich arbeite mit Breimans zufälligem Waldcode ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) zur Klassifizierung von Satellitendaten (überwachtes Lernen). Ich verwende einen Trainings- und Testdatensatz mit einer Stichprobengröße von 2000 und einer Variablengröße von 10. Die Daten werden in zwei Klassen, A und B, klassifiziert. Im überwachten Lernmodus arbeitet der Algorithmus mit einem sehr …

8 machine-learning classification random-forest

3

Ideen zur Ausgabe einer Vorhersagegleichung für zufällige Wälder

Ich habe die folgenden Beiträge gelesen, die die Frage beantwortet haben, die ich stellen wollte: Verwenden Sie das Random Forest-Modell, um Vorhersagen aus Sensordaten zu treffen Entscheidungsbaum für die Ausgabevorhersage Folgendes habe ich bisher getan: Ich habe die logistische Regression mit zufälligen Wäldern verglichen und RF hat die logistische Leistung …

8 random-forest prediction

2

Imputation mit zufälligen Wäldern

Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

8 data-mining predictive-models missing-data random-forest data-imputation

3

Wie werden Klassifikationen in einem Ensemble-Klassifikator zusammengeführt?

Wie verschmilzt ein Ensemble-Klassifikator die Vorhersagen seiner konstituierenden Klassifikatoren? Ich habe Schwierigkeiten, eine klare Beschreibung zu finden. In einigen Codebeispielen, die ich gefunden habe, mittelt das Ensemble nur die Vorhersagen, aber ich sehe nicht, wie dies zu einer "besseren" Gesamtgenauigkeit führen könnte. Betrachten Sie den folgenden Fall. Ein Ensemble-Klassifikator besteht …

8 machine-learning bayesian random-forest naive-bayes ensemble

1

Sind Entscheidungswälder und Zufallswälder dasselbe?

Basierend auf einer Antwort auf Cross Validated habe ich versucht , eine zufällige Gesamtstruktur in .NET / C # zu implementieren , um Textdokumente zu klassifizieren. Als ich mich im Internet umsah, um festzustellen, ob Implementierungen vorhanden sind, stieß ich auf einen Algorithmus für eine Entscheidungsstruktur in Alglib . Die …

8 random-forest

2

Warum ist die von Breiman vorgeschlagene Metrik mit variabler Wichtigkeit nur für zufällige Wälder spezifisch?

Im Random Forest- Artikel beschreiben sie eine gute Möglichkeit, die Wichtigkeit einer Variablen zu messen: Nehmen Sie Ihre Validierungsdaten, messen Sie die Fehlerrate, permutieren Sie die Variable und messen Sie die Fehlerrate neu. Frage - warum ist diese Methode spezifisch für zufällige Wälder? Ich verstehe, dass wir in anderen Klassifikatoren …

8 machine-learning random-forest importance

2

Zufälliger Wald mit Längsschnittdaten

Ich habe viele Messungen für mehrere Personen, bin mir aber nicht sicher, wie ich diese Wiederholungsmessstruktur beim Ausführen eines zufälligen Waldmodells berücksichtigen soll. Gibt es eine Möglichkeit, die zugrunde liegende Datenstruktur von Längsschnittdaten mithilfe eines zufälligen Waldmodells zu berücksichtigen? Ist das überhaupt nötig? - es scheint mir, dass es sein …

7 r repeated-measures random-forest panel-data

1

Neue Faktoren, die in den Trainingsdaten nicht enthalten sind

Ich erhalte den Fehler "Neue Faktoren, die in den Trainingsdaten nicht vorhanden sind". Aber ich habe die Ebenen und Klassen für jede Spalte in der Entwicklung sowie die Testdaten überprüft und sie sind gleich. Eine plausible Erklärung?

7 r machine-learning random-forest many-categories

1

XG Boost gegen Random Forest für die Vorhersage von Zeitreihen-Regressionen

Ich verwende Rs Implementierung von XGboost und Random Forest, um Prognosen für den Umsatz für einen Tag im Voraus zu erstellen. Ich habe ungefähr 200 Zeilen und 50 Prädiktoren. (Wenn ich mit der Zeit weiter gehe, habe ich mehr Daten, also mehr Zeilen). Das XGBoost-Modell mit den folgenden Parametern ist …

7 regression machine-learning time-series random-forest boosting

2

Zufällige Waldregression und Trendzeitreihen

Ich vergleiche ein zufälliges Waldmodell mit einem GLS-Modell unter Verwendung einer univariaten Zeitreihe, die einen deterministischen linearen Trend aufweist. Ich werde dem GLS-Modell eine lineare Zeittrend-Kovariate (unter anderen Prädiktoren) hinzufügen, um den sich ändernden Trend zu berücksichtigen. Um in meinem Vergleich konsistent zu sein, hatte ich gehofft, diesen Prädiktor auch …

7 time-series random-forest trend

1

Random Forests Out-of-Bag-Stichprobengröße

Ich lese die Beschreibung von RF hier . Im Abschnitt "Wie zufällige Wälder funktionieren" steht: Wenn der Trainingssatz für den aktuellen Baum durch Stichproben mit Ersatz gezogen wird, wird etwa ein Drittel der Fälle aus der Stichprobe herausgelassen. Diese oob-Daten (out-of-bag) werden verwendet, um eine laufende unvoreingenommene Schätzung des Klassifizierungsfehlers …

7 machine-learning sampling random-forest

1

Zufälliger Wald: Klassenspezifische Merkmalsbedeutung

Ich benutze das bigrfR-Paket, um einen Datensatz mit ca. zu analysieren. 50.000 Beobachtungen x 120 Variablen, klassifiziert in zwei Gruppen. Nachdem ich einen Wald mit 1000 Bäumen gezüchtet habe, untersuche ich die Bedeutung und Beziehung der 120 Merkmale in Bezug auf die beiden Klassen mit den Funktionen fastimpund interactions, die …

7 r classification feature-selection random-forest

Als «random-forest» getaggte Fragen