Angenommen, wir haben eine Stichprobe aus zwei Populationen: A
und B
. Nehmen wir an, diese Populationen bestehen aus Individuen und wir beschreiben Individuen anhand von Merkmalen. Einige dieser Funktionen sind kategorisch (z. B. fahren sie zur Arbeit?) Und andere numerisch (z. B. ihre Höhe). Nennen wir diese Funktionen: . Wir sammeln Hunderte dieser Merkmale (z. B. n = 200), nehmen wir der Einfachheit halber an, ohne Fehler oder Rauschen bei allen Personen.
Wir nehmen an, dass die beiden Populationen unterschiedlich sind. Unser Ziel ist es, die folgenden zwei Fragen zu beantworten:
- Unterscheiden sie sich tatsächlich erheblich?
- Was ist zwischen ihnen signifikant unterschiedlich?
Methoden wie Entscheidungsbäume (z. B. zufällige Wälder) und lineare Regressionsanalysen können helfen. Zum Beispiel könnte man die Bedeutung von Merkmalen in zufälligen Wäldern oder die angepassten Koeffizienten in der linearen Regression untersuchen, um zu verstehen, was diese Gruppen unterscheiden kann, und die Beziehungen zwischen Merkmalen und Populationen untersuchen.
Bevor ich diesen Weg gehe, möchte ich einen Eindruck von meinen Möglichkeiten bekommen, was gut und modern gegen schlecht ist. Bitte beachten Sie, dass mein Ziel nicht die Vorhersage an sich ist, sondern das Testen und Finden signifikanter Unterschiede zwischen den Gruppen.
Welche prinzipiellen Ansätze gibt es , um dieses Problem anzugehen?
Hier sind einige Bedenken, die ich habe:
Methoden wie die lineare Regressionsanalyse antworten möglicherweise nicht vollständig (2), oder? Zum Beispiel kann eine einzelne Anpassung helfen, einige Unterschiede zu finden, aber nicht alle signifikanten Unterschiede. Zum Beispiel kann die Multikollinearität verhindern, dass wir herausfinden, wie sich alle Merkmale zwischen den Gruppen unterscheiden (zumindest bei einer einzelnen Anpassung). Aus dem gleichen Grund würde ich erwarten, dass ANOVA auch auf (2) keine vollständige Antwort geben kann.
Es ist nicht ganz klar, wie ein prädiktiver Ansatz antworten würde (1). Welche Klassifizierungs- / Vorhersageverlustfunktion sollten wir beispielsweise minimieren? Und wie testen wir, ob sich die Gruppen signifikant unterscheiden, wenn wir einen Anfall haben? Schließlich mache ich mir Sorgen, dass die Antwort auf (1) von den von mir verwendeten Klassifizierungsmodellen abhängt.