Ich suche einen Klassifikator zu trainieren , die zwischen diskriminieren Type A
und Type B
Objekte mit einer einigermaßen großen Trainingssatz von etwa 10.000 Objekte, etwa die Hälfte davon sind Type A
und die Hälfte davon Type B
. Der Datensatz besteht aus 100 kontinuierlichen Merkmalen, die die physikalischen Eigenschaften der Zellen (Größe, mittlerer Radius usw.) genau beschreiben. Die Visualisierung der Daten in paarweisen Streudiagrammen und Dichtediagrammen zeigt, dass es in vielen Merkmalen eine signifikante Überlappung der Verteilungen der krebsartigen und normalen Zellen gibt.
Ich untersuche derzeit zufällige Wälder als Klassifizierungsmethode für diesen Datensatz und sehe einige gute Ergebnisse. Mit R können zufällige Gesamtstrukturen etwa 90% der Objekte korrekt klassifizieren.
Eines der Dinge, die wir versuchen möchten, ist eine Art "Sicherheitsbewertung", die quantifiziert, wie sicher wir von der Klassifizierung der Objekte sind. Wir wissen, dass unser Klassifikator niemals 100% genau sein wird, und selbst wenn eine hohe Genauigkeit bei den Vorhersagen erreicht wird, möchten wir, dass geschulte Techniker erkennen, welche Objekte wirklich Type A
und welche sind Type B
. Anstatt also kompromisslose Vorhersagen von Type A
oder zu liefern Type B
, möchten wir für jedes Objekt eine Punktzahl präsentieren, die beschreibt, wie A
oder wie B
ein Objekt ist. Wenn wir zum Beispiel eine Punktzahl zwischen 0 und 10 festlegen, kann eine Punktzahl von 0 darauf hinweisen, dass ein Objekt Type A
Objekten sehr ähnlich ist , während eine Punktzahl von 10 darauf hinweist, dass ein Objekt sehr ähnlich ist Type B
.
Ich dachte, ich könnte die Stimmen in den zufälligen Wäldern verwenden, um eine solche Punktzahl zu entwickeln. Da die Klassifizierung in zufälligen Wäldern durch Mehrheitsvoting innerhalb des Waldes generierter Bäume erfolgt, würde ich davon ausgehen, dass sich Objekte, die von 100% der zu bewertenden Bäume Type A
bewertet wurden, von Objekten unterscheiden würden, für die beispielsweise 51% der Bäume gestimmt haben sein Type A
.
Derzeit habe ich versucht, einen willkürlichen Schwellenwert für den Stimmenanteil festzulegen, den ein Objekt erhalten muss, um als Type A
oder klassifiziert zu werden. Type B
Wird der Schwellenwert nicht überschritten, wird er als klassifiziert Uncertain
. Wenn ich zum Beispiel die Bedingung erzwinge, dass 80% oder mehr der Bäume einer Entscheidung zustimmen müssen, damit eine Klassifizierung bestanden wird, stelle ich fest, dass 99% der Klassenvorhersagen korrekt sind, aber ungefähr 40% der Objekte als gruppiert sind Uncertain
.
Wäre es dann sinnvoll, die Abstimmungsinformationen zu nutzen, um die Sicherheit der Vorhersagen zu gewährleisten? Oder gehe ich mit meinen Gedanken in die falsche Richtung?