Untersuchung der Unterschiede zwischen Populationen


9

Angenommen, wir haben eine Stichprobe aus zwei Populationen: Aund B. Nehmen wir an, diese Populationen bestehen aus Individuen und wir beschreiben Individuen anhand von Merkmalen. Einige dieser Funktionen sind kategorisch (z. B. fahren sie zur Arbeit?) Und andere numerisch (z. B. ihre Höhe). Nennen wir diese Funktionen: . Wir sammeln Hunderte dieser Merkmale (z. B. n = 200), nehmen wir der Einfachheit halber an, ohne Fehler oder Rauschen bei allen Personen.X1Xn

Wir nehmen an, dass die beiden Populationen unterschiedlich sind. Unser Ziel ist es, die folgenden zwei Fragen zu beantworten:

  1. Unterscheiden sie sich tatsächlich erheblich?
  2. Was ist zwischen ihnen signifikant unterschiedlich?

Methoden wie Entscheidungsbäume (z. B. zufällige Wälder) und lineare Regressionsanalysen können helfen. Zum Beispiel könnte man die Bedeutung von Merkmalen in zufälligen Wäldern oder die angepassten Koeffizienten in der linearen Regression untersuchen, um zu verstehen, was diese Gruppen unterscheiden kann, und die Beziehungen zwischen Merkmalen und Populationen untersuchen.

Bevor ich diesen Weg gehe, möchte ich einen Eindruck von meinen Möglichkeiten bekommen, was gut und modern gegen schlecht ist. Bitte beachten Sie, dass mein Ziel nicht die Vorhersage an sich ist, sondern das Testen und Finden signifikanter Unterschiede zwischen den Gruppen.

Welche prinzipiellen Ansätze gibt es , um dieses Problem anzugehen?

Hier sind einige Bedenken, die ich habe:

  • Methoden wie die lineare Regressionsanalyse antworten möglicherweise nicht vollständig (2), oder? Zum Beispiel kann eine einzelne Anpassung helfen, einige Unterschiede zu finden, aber nicht alle signifikanten Unterschiede. Zum Beispiel kann die Multikollinearität verhindern, dass wir herausfinden, wie sich alle Merkmale zwischen den Gruppen unterscheiden (zumindest bei einer einzelnen Anpassung). Aus dem gleichen Grund würde ich erwarten, dass ANOVA auch auf (2) keine vollständige Antwort geben kann.

  • Es ist nicht ganz klar, wie ein prädiktiver Ansatz antworten würde (1). Welche Klassifizierungs- / Vorhersageverlustfunktion sollten wir beispielsweise minimieren? Und wie testen wir, ob sich die Gruppen signifikant unterscheiden, wenn wir einen Anfall haben? Schließlich mache ich mir Sorgen, dass die Antwort auf (1) von den von mir verwendeten Klassifizierungsmodellen abhängt.

Antworten:


5

Stellen wir uns das Problem wie folgt vor.

X=(X1,X2,..Xn)YY=0Y=1

  • H0
  • H0XY=0XY=1
  • H0XY
  • H0f{0,1}f(X)Y

YX

Es ist möglich, etwas basierend darauf zu versuchen. Teilen Sie den Originaldatensatz in einen Trainingssatz und einen Testsatz auf. Dann:

  • fYX
  • αf(X)Y

f(X)H0αH0

α


Danke Benoit (+1). Dies scheint auf Frage (1) anwendbar zu sein. Irgendwelche Ideen, wie (2) mit diesem oder einem alternativen Ansatz angegangen werden kann?
Amelio Vazquez-Reina

α

α

Meine Hoffnung bei RFs ist es auch, Merkmale zu identifizieren, die Unterschiede erfassen (dh zumindest eine teilweise Antwort auf (2) erhalten). Sie sind nicht ideal für die Interpretierbarkeit (obwohl ich davon ausgehe, dass man dies durch Begrenzung ihrer Höhe tun könnte). In beiden Fällen kann das Gleiche über DTs gesagt werden, oder? Stellen Sie nur sicher, dass ich Ihren Kommentar gut verstehe.
Amelio Vazquez-Reina

αn1(1α)n

3

Sie sagen nicht, wie viele Funktionen in den Daten verfügbar sind. Wenige, viele, massiv? Können wir annehmen, dass es sich um dieselben Merkmale zwischen Populationen handelt, die alle mit denselben Werkzeugen, Methoden und Modalitäten gemessen wurden? Wenn nicht, haben Sie ein größeres Problem, bei dem ein Messmodell für Fehler in Variablen möglicherweise funktioniert.

@benoitsanchez scheint Frage 1) beantwortet zu haben.

Wrt # 2), ich bin nicht sicher, ob RFs helfen können. Durch Verwendung eines formaleren Modells wie einer Einweg-ANOVA, die jeweils auf ein Merkmal angewendet wird, kann ein Test des Unterschieds zwischen Populationen für Merkmale entwickelt werden. Durch die Zusammenfassung der Ergebnisse dieser Tests, basierend auf der Größe des Tests sowie seiner Bedeutung, wird ein beschreibendes Profil möglich, wie sich die Populationen zwischen den Merkmalen unterscheiden. Dies ist zugegebenermaßen eine Ad-hoc- und heuristische Lösung, die für Ihren Geschmack, Ihre Vorlieben und Ihr Training möglicherweise nicht streng genug ist.

Da ich nicht gut in der Latex-Notation bin, möchte ich einfach beschreiben, wie diese Tests funktionieren könnten: Erstellen Sie zunächst eine Art Makroschleife, die alle Features einzeln durchläuft. Mit jedem Durchlauf der Schleife wird das neue Merkmal zum Ziel oder DV mit X, das aus einer Dummy-Variablen für die Grundgesamtheit sowie allen geeigneten Steuervariablen besteht. Stellen Sie sicher, dass für jedes Feature dieselben Steuerelemente verwendet werden und dass die zugrunde liegenden Daten für alle ANOVAs genau gleich sind, um Abweichungen zu vermeiden, die auf die Wechselwirkungen endlicher Datenproben zurückzuführen sind. Aggregieren Sie die F-Test-Werte für die Dummy-Variable für jedes Feature. Dies bietet eine standardisierte Metrik, die einen Vergleich zwischen Funktionen ermöglicht. F-Tests sind angepassten Betas vorzuziehen, da Betassind nicht standardisiert und werden in der Einheit und den Standardentwicklungen jedes einzelnen Merkmals ausgedrückt.

Ihr letzter Kommentar "Ich mache mir Sorgen, dass die Antwort auf (1) von den von mir verwendeten Klassifizierungs- / Regressionsmodellen abhängt" ist immer richtig. Die Antworten variieren sehr wahrscheinlich in Abhängigkeit von den verwendeten Modellen. Es ist auch Ausdruck eines häufig beobachteten Unwohlseins unter den stärker theoretischen und klassisch ausgebildeten Statistikern, die mit der nicht deterministischen Natur der angewandten statistischen Modellierung nicht vertraut sind oder Schwierigkeiten haben, diese anzuerkennen. Ein ausgezeichnetes Gegenmittel gegen diese Symptome ist Efrons und Hasties jüngstes Buch Computer Age Statistical Inference . Sie bringen statistische Modellierung in das 21. Jahrhundert, ein Zeitalter der Datenwissenschaft und des maschinellen Lernens, indem sie offen die iterative, approximierende, heuristische Natur aller anerkennenModelle mit einem Fehlerterm. Man muss kein Bayesianer sein, um die Wahrheit zu erkennen, die dieser Beobachtung innewohnt. Ihre Perspektive ist erfrischend und unterscheidet sich von dem starren Determinismus der klassischen statistischen Praxis des 20. Jahrhunderts, der ihre Hände in die Luft warf, wenn beispielsweise eine produktübergreifende Matrix nicht invertiert wurde und / oder eine pedantische Modellannahme nicht erfüllt wurde.


Danke @DJohnson. Wenn Sie sagten "Aggregieren Sie die F-Test-Werte für die Dummy-Variable für jedes Feature", was bedeuten Sie genau? dh was würden Sie genau mit diesem Ergebnis machen? Was meinst du in diesem Zusammenhang mit Betas? Wäre dieser iterative Ansatz nicht auf keine Interaktionen beschränkt? Was ist beispielsweise am ursprünglichen Beispiel, wenn es einen signifikanten Unterschied in der "Größe der Personen gibt, die zur Arbeit fahren"?
Amelio Vazquez-Reina

Warum sollten Sie mit einer Abfolge von Einweg-ANOVA-Tests fortfahren, anstatt Mehrweg-ANOVA durchzuführen?
Amelio Vazquez-Reina

2
Gute Fragen. In Bezug auf das resultierende beschreibende Profil dachte ich daran, einfach den F-Test und die zugehörigen Signifikanz- oder p-Werte für jedes Merkmal aufzuzeichnen und sie dann von hoch nach niedrig zu ordnen. Da der F-Test ein Verhältnis von Chi-Quadraten ist und daher nicht symmetrisch ist, könnten dem Bericht die Populationsmittelwerte hinzugefügt werden, um das Verständnis der Richtwirkung der Ergebnisse zu erleichtern. Alternativ könnte ein T-Test zu diesem Verständnis beitragen. Dieses Profil würde helfen, sowohl die Größe als auch die Stärke von Merkmalen als Funktion der zugrunde liegenden Populationen zu verstehen.
Mike Hunter

Wie bereits erwähnt, sollten Steuervariablen entsprechend hinzugefügt werden. Dies können Interaktionen sein, sofern sie in allen Modellen konsistent verwendet werden. Die Einführung zusätzlicher Faktoren würde das Modell per Definition von einer Einbahnstraße auf eine multiple Regression oder eine ANOVA erweitern.
Mike Hunter
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.