Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false. Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist. Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen …
Ich habe 5 Variablen für jedes Land der Welt und ich muss deren Auswirkungen und Wechselwirkungen auf eine unabhängige Variable analysieren. Random Forest wäre für meinen Anwendungsbereich angemessen, da es sich um nichtlineare Beziehungen handelt und die Wichtigkeit von Variablen vorhersagt. Ich frage mich jedoch, ob räumliche Abhängigkeit ein Problem …
Ich verstehe, wie die beste Aufteilung für zufällige Gesamtstrukturen für numerische Prädiktoren (Merkmale) gewählt wird. Numerische Prädiktoren werden dann sortiert, dann wird für jeden Wert eine Gini-Verunreinigung oder Entropie berechnet und ein Schwellenwert ausgewählt, der die beste Aufteilung ergibt. Aber wie wird die beste Aufteilung für den kategorialen Prädiktor gewählt, …
Ich arbeite mit Breimans zufälligem Waldcode ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) zur Klassifizierung von Satellitendaten (überwachtes Lernen). Ich verwende einen Trainings- und Testdatensatz mit einer Stichprobengröße von 2000 und einer Variablengröße von 10. Die Daten werden in zwei Klassen, A und B, klassifiziert. Im überwachten Lernmodus arbeitet der Algorithmus mit einem sehr …
Ich habe die folgenden Beiträge gelesen, die die Frage beantwortet haben, die ich stellen wollte: Verwenden Sie das Random Forest-Modell, um Vorhersagen aus Sensordaten zu treffen Entscheidungsbaum für die Ausgabevorhersage Folgendes habe ich bisher getan: Ich habe die logistische Regression mit zufälligen Wäldern verglichen und RF hat die logistische Leistung …
Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …
Wie verschmilzt ein Ensemble-Klassifikator die Vorhersagen seiner konstituierenden Klassifikatoren? Ich habe Schwierigkeiten, eine klare Beschreibung zu finden. In einigen Codebeispielen, die ich gefunden habe, mittelt das Ensemble nur die Vorhersagen, aber ich sehe nicht, wie dies zu einer "besseren" Gesamtgenauigkeit führen könnte. Betrachten Sie den folgenden Fall. Ein Ensemble-Klassifikator besteht …
Basierend auf einer Antwort auf Cross Validated habe ich versucht , eine zufällige Gesamtstruktur in .NET / C # zu implementieren , um Textdokumente zu klassifizieren. Als ich mich im Internet umsah, um festzustellen, ob Implementierungen vorhanden sind, stieß ich auf einen Algorithmus für eine Entscheidungsstruktur in Alglib . Die …
Im Random Forest- Artikel beschreiben sie eine gute Möglichkeit, die Wichtigkeit einer Variablen zu messen: Nehmen Sie Ihre Validierungsdaten, messen Sie die Fehlerrate, permutieren Sie die Variable und messen Sie die Fehlerrate neu. Frage - warum ist diese Methode spezifisch für zufällige Wälder? Ich verstehe, dass wir in anderen Klassifikatoren …
Ich habe viele Messungen für mehrere Personen, bin mir aber nicht sicher, wie ich diese Wiederholungsmessstruktur beim Ausführen eines zufälligen Waldmodells berücksichtigen soll. Gibt es eine Möglichkeit, die zugrunde liegende Datenstruktur von Längsschnittdaten mithilfe eines zufälligen Waldmodells zu berücksichtigen? Ist das überhaupt nötig? - es scheint mir, dass es sein …
Ich erhalte den Fehler "Neue Faktoren, die in den Trainingsdaten nicht vorhanden sind". Aber ich habe die Ebenen und Klassen für jede Spalte in der Entwicklung sowie die Testdaten überprüft und sie sind gleich. Eine plausible Erklärung?
Ich verwende Rs Implementierung von XGboost und Random Forest, um Prognosen für den Umsatz für einen Tag im Voraus zu erstellen. Ich habe ungefähr 200 Zeilen und 50 Prädiktoren. (Wenn ich mit der Zeit weiter gehe, habe ich mehr Daten, also mehr Zeilen). Das XGBoost-Modell mit den folgenden Parametern ist …
Ich vergleiche ein zufälliges Waldmodell mit einem GLS-Modell unter Verwendung einer univariaten Zeitreihe, die einen deterministischen linearen Trend aufweist. Ich werde dem GLS-Modell eine lineare Zeittrend-Kovariate (unter anderen Prädiktoren) hinzufügen, um den sich ändernden Trend zu berücksichtigen. Um in meinem Vergleich konsistent zu sein, hatte ich gehofft, diesen Prädiktor auch …
Ich lese die Beschreibung von RF hier . Im Abschnitt "Wie zufällige Wälder funktionieren" steht: Wenn der Trainingssatz für den aktuellen Baum durch Stichproben mit Ersatz gezogen wird, wird etwa ein Drittel der Fälle aus der Stichprobe herausgelassen. Diese oob-Daten (out-of-bag) werden verwendet, um eine laufende unvoreingenommene Schätzung des Klassifizierungsfehlers …
Ich benutze das bigrfR-Paket, um einen Datensatz mit ca. zu analysieren. 50.000 Beobachtungen x 120 Variablen, klassifiziert in zwei Gruppen. Nachdem ich einen Wald mit 1000 Bäumen gezüchtet habe, untersuche ich die Bedeutung und Beziehung der 120 Merkmale in Bezug auf die beiden Klassen mit den Funktionen fastimpund interactions, die …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.