Ich erkunde verschiedene Klassifizierungsmethoden für ein Projekt, an dem ich arbeite, und bin daran interessiert, Random Forests auszuprobieren. Ich versuche mich weiterzubilden und würde mich über jede Hilfe durch die CV-Community freuen.
Ich habe meine Daten in Trainings- / Test-Sets aufgeteilt. Durch Experimente mit zufälligen Gesamtstrukturen in R (mit dem randomForest-Paket) hatte ich Probleme mit einer hohen Fehlklassifizierungsrate für meine kleinere Klasse. Ich habe dieses Papier über die Leistung von Zufallsgesamtstrukturen mit unausgeglichenen Daten gelesen und die Autoren stellten zwei Methoden zum Umgang mit Klassenungleichgewichten bei der Verwendung von Zufallsgesamtstrukturen vor.
1. Gewichtete zufällige Wälder
2. Ausgewogene zufällige Wälder
Das R-Paket erlaubt keine Gewichtung der Klassen (in den R-Hilfeforen habe ich gelesen, dass der classwt-Parameter nicht ordnungsgemäß ausgeführt wird und als künftige Fehlerbehebung geplant ist). Daher bleibt mir die Option 2. Ich kann angeben Die Anzahl der Objekte, die von jeder Klasse für jede Iteration der zufälligen Gesamtstruktur abgetastet wurden.
Es ist mir unangenehm, gleiche Stichprobengrößen für zufällige Gesamtstrukturen festzulegen, da ich das Gefühl habe, zu viele Informationen über die größere Klasse zu verlieren, was bei zukünftigen Daten zu einer schlechten Leistung führen würde. Die Fehlklassifizierungsraten beim Downsampling der größeren Klasse haben sich verbessert, aber ich habe mich gefragt, ob es andere Möglichkeiten gibt, mit unausgeglichenen Klassengrößen in zufälligen Wäldern umzugehen.