Ich habe oft einen Datensatz analysiert, für den ich keine Klassifizierung vornehmen konnte. Um zu sehen, ob ich einen Klassifikator bekommen kann, habe ich normalerweise die folgenden Schritte ausgeführt:
- Generieren Sie Box-Plots der Beschriftung anhand numerischer Werte.
- Reduzieren Sie die Dimensionalität auf 2 oder 3, um festzustellen, ob Klassen trennbar sind. Versuchen Sie es manchmal auch mit LDA.
- Versuchen Sie mit Nachdruck, SVMs und zufällige Wälder anzupassen, und überprüfen Sie die Wichtigkeit von Funktionen, um festzustellen, ob die Funktionen sinnvoll sind oder nicht.
- Versuchen Sie, das Gleichgewicht zwischen Klassen und Techniken wie Unter- und Überstichproben zu ändern, um zu überprüfen, ob ein Klassenungleichgewicht ein Problem darstellen könnte.
Es gibt viele andere Ansätze, die ich mir vorstellen kann, aber nicht ausprobiert habe. Manchmal weiß ich, dass diese Funktionen nicht gut sind und überhaupt nichts mit dem Label zu tun haben, das wir vorhersagen wollen. Ich benutze dann diese Geschäftsintuition, um die Übung zu beenden, und komme zu dem Schluss, dass wir bessere Funktionen oder völlig andere Bezeichnungen benötigen.
Meine Frage ist, wie ein Data Scientist berichtet, dass die Klassifizierung mit diesen Funktionen nicht möglich ist. Gibt es eine statistische Möglichkeit, dies zu melden oder die Daten zuerst in verschiedene Algorithmen einzupassen, und die Validierungsmetrik ist die beste Option?