Nichtparametrisches Mischungsmodell und Cluster


8

Ich habe eine Frage zu Clustern, die ich mit einem nichtparametrischen Mischungsansatz behandeln möchte (glaube ich). Ich arbeite an der Erklärung des menschlichen Verhaltens.
Jede Zeile meiner Datenbank enthält:

  1. die ID von jemandem
  2. einige Parameter der Umgebung X (Beispiel: Temperatur, Wind usw.)
  3. eine binäre Variable Y , die die Reaktion der Person auf die Parameter darstellt (Beispiel: krank werden oder wegen des Wetters nicht krank werden).

Meine Idee (basierend auf Intuition und nicht auf Daten) ist, dass wir Menschen in einer endlichen Anzahl von Gruppen versammeln können, so dass Menschen in einer Gruppe die gleiche Reaktion auf Temperatur haben (einige sind leicht krank, andere sind nie krank ...) . In einer gegebenen Gruppe ist das Gesetz von Y , das von den Parametern X abhängig ist , formal dasselbe.

Ich habe keine Ahnung von dem Gesetz von Y , das von X abhängig ist . Für die Parameter X kann ich bei Bedarf eine Hypothese aufstellen.

Ich möchte eine Gruppe von Menschen schaffen, die "mehr oder weniger" die gleiche Reaktion auf Parameter haben. Außerdem möchte ich die Reaktion einer bestimmten Person auf einen bestimmten Wert der Parameter vorhersagen (auch wenn dieses Ereignis noch nie in der Datenbank aufgetreten ist).

(Xi,Yi)XiYiXi

Xi

  • Ist mein Ansatz korrekt?
  • Würden Sie einen anderen Standpunkt für dieses Problem empfehlen?

Ich würde mich sehr für Referenzen darüber interessieren.
Zögern Sie nicht, mich zu bitten, die Problemstellung neu zu formulieren.


1
Da Sie Daten beschriftet haben, handelt es sich lediglich um ein überwachtes Klassifizierungsproblem, und Sie benötigen einen binären Klassifizierer. Welcher Klassifikator "am besten" funktioniert, hängt vom persönlichen Geschmack und dem spezifischen Problem ab. Auf jeden Fall würde ich zuerst einige Standardoptionen (SVMs, Entscheidungsbäume usw.) ausprobieren, bevor ich etwas Exotischeres probiere.
Iliasfl

Sofern Sie nicht an der Struktur des Sets interessiert sind, ist der Kommentar von @ iliasfl absolut gültig: Klassifikator-Lerntechniken sind gut geeignet. Andernfalls sollten Sie unbeaufsichtigt lernen. Bevor Sie nichtparametrische Modelle ausprobieren, können Sie einen einfacheren EM-Algorithmus zum Trennen der Gaußschen Mischung oder nur ein k-Mittel-Clustering ausprobieren, wenn Sie die Anzahl der Cluster schätzen können. Anschließend können Sie das Ergebnis zur Klassifizierung verwenden oder Rohdaten erneut klassifizieren.
Roman Shapovalov

Antworten:


1

Wenn Sie auf Ihren Punkt antworten "Würden Sie einen anderen Standpunkt für dieses Problem empfehlen?", Würde ich vorschlagen, dass Sie sich Ihre Daten tatsächlich ansehen . Dies kann Ihnen helfen, die nächsten Schritte besser zu planen. Schließlich ist das menschliche Auge-Gehirn-System bei der Mustererkennung recht gut und Sie können möglicherweise besser über die Anzahl der Cluster entscheiden, wenn Sie sich für eine unbeaufsichtigte Clusterbildung entscheiden.

Dementsprechend können Sie versuchen, eine Hauptkomponentenanalyse (PCA) durchzuführen, da Ihre Daten "hoch" -dimensional zu sein scheinen, da dies eine sehr schnelle Analyse ist, insbesondere für Ihren Datensatz mit 100.000 Punkten. PCA ist jedoch nicht der einzige und nicht unbedingt am besten geeignete Ansatz zur Dimensionsreduzierung mit dem Ziel der (2D / 3D) -Visualisierung, da es sich um eine parametrische, lineare Methode handelt. Ihre Daten können sich jedoch nichtlinear verhalten. Ich kann die Toolbox zur Dimensionsreduzierung für Matlab von Laurens van der Maaten vorschlagen, die viele verschiedene Techniken enthält. Einige der darin enthaltenen Techniken sind jedoch von Natur aus langsam, sodass Sie sie möglicherweise an unterabgetasteten Daten testen möchten. Eine neuere und leistungsstarke nichtparametrische und nichtlineare Dimensionsreduktionstechnik ist BH-SNEDies sollte auch für Ihre Datensatzgröße funktionieren, obwohl dies je nach verfügbarer Hardware etwa 30 Minuten bis 1 Stunde dauern kann. Da Sie an der Erkennung von Clustern interessiert sind, ist BH-SNE möglicherweise eine gute Wahl, da es (und sein "Vorgänger" t-SNE) in dieser Hinsicht eine beeindruckende Leistung bei verschiedenen Datensätzen gezeigt hat (siehe Manuskript).

Abschließend möchte ich noch auf Ihre Frage zu kontinuierlichen / diskreten Daten eingehen. Ich habe noch keine Erfahrung damit, wie dies die Dimensionsreduzierung beeinflusst. Dementsprechend möchten Sie möglicherweise versuchen, entweder die kontinuierlichen Variablen zu diskretisieren oder die (wenigen?) Diskreten Variablen nach Möglichkeit zu ignorieren. Alternativ können Sie die binäre Variable (Reaktion der Person) verwenden, um die Punkte in der niedrigdimensionalen Visualisierung (2D / 3D) farblich zu kennzeichnen.

PS Das Durchführen eines hierarchischen Clusters (Verknüpfungsanalyse) und das Betrachten des resultierenden Dendrogramms ist eine weitere Möglichkeit, eine niedrigdimensionale Darstellung Ihrer Daten zu erstellen, mit deren Hilfe Sie besser abschätzen können, ob Cluster vorhanden sind und möglicherweise auch wie viele Cluster vorhanden sind.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.