Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false.
Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist.
Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen meiner Zielknoten (der wichtigste ist der Tod) ist das AUC-Ergebnis jedoch nicht sehr gut. es ist etwas besser als der Zufall. Selbst der positive prädiktive Wert (PPV), der mir im Lebenslauf vorgeschlagen wurde, war mit anderen Ansätzen in der Literatur nicht konkurrenzfähig. Beachten Sie, dass die AUC (ROC-Analyse) der typische Benchmark in diesem Bereich der klinischen Forschung ist, aber ich bin auch offen für Vorschläge, wie das Klassifizierungsmodell angemessener bewertet werden kann, wenn es andere Ideen gibt.
Also habe ich mich gefragt, welche anderen Klassifizierungsmodelle ich für diese Art von Datensatz mit dieser Eigenschaft ausprobieren kann (meistens falsche Werte).
- würde die Unterstützung von Vektormaschinen helfen? Soweit ich weiß, befasst sich SVM nur mit kontinuierlichen Variablen als Prädiktoren (obwohl es für mehrere Klassen angepasst wurde). aber meine Variablen sind alle binär.
- würde ein zufälliger Wald helfen?
- würde hier eine logistische Regression gelten? Soweit ich weiß, sind auch die Prädiktoren für die logistische Regression kontinuierlich. Gibt es eine verallgemeinerte Version für binäre Variablen als Prädiktoren?
Abgesehen von der Klassifizierungsleistung vermute ich, dass SVM und Random Forest das Bayes'sche Netzwerk sehr gut übertreffen könnten, aber das Problem verlagert sich auf die Erklärung der Beziehungen in diesen Modellen (insbesondere für Kliniker).