Ich suche einen Klassifikator zu trainieren , die zwischen diskriminieren Type Aund Type BObjekte mit einer einigermaßen großen Trainingssatz von etwa 10.000 Objekte, etwa die Hälfte davon sind Type Aund die Hälfte davon Type B. Der Datensatz besteht aus 100 kontinuierlichen Merkmalen, die die physikalischen Eigenschaften der Zellen (Größe, mittlerer Radius usw.) genau beschreiben. Die Visualisierung der Daten in paarweisen Streudiagrammen und Dichtediagrammen zeigt, dass es in vielen Merkmalen eine signifikante Überlappung der Verteilungen der krebsartigen und normalen Zellen gibt.
Ich untersuche derzeit zufällige Wälder als Klassifizierungsmethode für diesen Datensatz und sehe einige gute Ergebnisse. Mit R können zufällige Gesamtstrukturen etwa 90% der Objekte korrekt klassifizieren.
Eines der Dinge, die wir versuchen möchten, ist eine Art "Sicherheitsbewertung", die quantifiziert, wie sicher wir von der Klassifizierung der Objekte sind. Wir wissen, dass unser Klassifikator niemals 100% genau sein wird, und selbst wenn eine hohe Genauigkeit bei den Vorhersagen erreicht wird, möchten wir, dass geschulte Techniker erkennen, welche Objekte wirklich Type Aund welche sind Type B. Anstatt also kompromisslose Vorhersagen von Type Aoder zu liefern Type B, möchten wir für jedes Objekt eine Punktzahl präsentieren, die beschreibt, wie Aoder wie Bein Objekt ist. Wenn wir zum Beispiel eine Punktzahl zwischen 0 und 10 festlegen, kann eine Punktzahl von 0 darauf hinweisen, dass ein Objekt Type AObjekten sehr ähnlich ist , während eine Punktzahl von 10 darauf hinweist, dass ein Objekt sehr ähnlich ist Type B.
Ich dachte, ich könnte die Stimmen in den zufälligen Wäldern verwenden, um eine solche Punktzahl zu entwickeln. Da die Klassifizierung in zufälligen Wäldern durch Mehrheitsvoting innerhalb des Waldes generierter Bäume erfolgt, würde ich davon ausgehen, dass sich Objekte, die von 100% der zu bewertenden Bäume Type Abewertet wurden, von Objekten unterscheiden würden, für die beispielsweise 51% der Bäume gestimmt haben sein Type A.
Derzeit habe ich versucht, einen willkürlichen Schwellenwert für den Stimmenanteil festzulegen, den ein Objekt erhalten muss, um als Type Aoder klassifiziert zu werden. Type BWird der Schwellenwert nicht überschritten, wird er als klassifiziert Uncertain. Wenn ich zum Beispiel die Bedingung erzwinge, dass 80% oder mehr der Bäume einer Entscheidung zustimmen müssen, damit eine Klassifizierung bestanden wird, stelle ich fest, dass 99% der Klassenvorhersagen korrekt sind, aber ungefähr 40% der Objekte als gruppiert sind Uncertain.
Wäre es dann sinnvoll, die Abstimmungsinformationen zu nutzen, um die Sicherheit der Vorhersagen zu gewährleisten? Oder gehe ich mit meinen Gedanken in die falsche Richtung?