Diskrete Daten und Alternativen zu PCA

Ich habe einen Datensatz mit diskreten (ordinalen, meristischen und nominalen) Variablen, die morphologische Flügelcharakteristika für mehrere eng verwandte Insektenarten beschreiben. Ich möchte eine Art Analyse durchführen, die mir eine visuelle Darstellung der Ähnlichkeit der verschiedenen Arten anhand der morphologischen Eigenschaften gibt. Das erste, was mir in den Sinn kam, war PCA (dies ist die Art von Visualisierung, die ich erstellen möchte), aber nachdem ich sie untersucht habe (insbesondere andere Fragen wie: Kann die Hauptkomponentenanalyse auf Datensätze angewendet werden, die eine Mischung aus kontinuierlichen Elementen enthalten? und kategoriale Variablen?) scheint PCA für diskrete Daten ungeeignet zu sein (PCA wird in der Literatur für diese Art von Studien verwendet, jedoch immer mit kontinuierlichen Daten). Wenn man den statistischen Hintergrund ignoriert, warum diese Daten unangemessen sind, liefert PCA relativ perfekte Ergebnisse in Bezug auf meine biologische Frage (hybride Interessengruppen fallen genau in die Mitte ihrer väterlichen Gruppen).

Ich habe auch mehrere Korrespondenzanalysen versucht, um die Statistiken zu beschwichtigen (zumindest soweit mein Verständnis reicht), aber ich kann anscheinend keine grafische Darstellung erhalten, die derjenigen entspricht, die ich mit PCA erhalten würde, wo meine Beobachtungen (die biologischen Individuen) sind etwa farblich getrennt, um die verschiedenen Gruppierungen (verschiedene Arten, biologisch gesehen) anzuzeigen. Es scheint, dass diese Analyse darauf abzielt zu beschreiben, wie die Variablen (hier meine morphologischen Eigenschaften) miteinander in Beziehung stehen, nicht die einzelnen Beobachtungen. Und wenn ich nach Gruppen gefärbte Beobachtungen zeichne, erhalte ich nur einen einzigen Wert (vielleicht einen Durchschnitt), der die gesamte Gruppe von Individuen beschreibt. Ich habe die Analyse in R durchgeführt, also bin ich vielleicht auch nicht R-versiert genug, um meine Vorstellung von der Handlung zum Laufen zu bringen.

Bin ich richtig darin, diese Art der Analyse mit meinen Daten zu versuchen, oder bin ich weit vom Kurs entfernt? Wenn Sie nicht sagen können, ist meine statistische Expertise begrenzt, so dass die Gleichungen, die unter diesen Analysen auftreten, weit über meinem Kopf liegen. Ich versuche, diese Analyse vollständig deskriptiv durchzuführen (ich muss keine nachgelagerten Zahlen mehr eingeben), und ich habe gelesen, dass PCA in diesem Fall ausreicht, aber ich möchte sicherstellen, dass dies nicht der Fall ist Verletzung zu vieler statistischer Annahmen.

— JD
quelle

Mit der Analyse mehrerer Korrespondenzen sollten Sie in der Lage sein, die gewünschte Art von Plot zu erhalten. Wenn Sie uns einen Link zu Ihren Daten geben können, könnten wir einen Blick darauf werfen. Mehrdimensionale Skalierung ist eine weitere Möglichkeit, aber MCA kann als eine Art mehrdimensionale Skalierung angesehen werden

— kjetil b halvorsen

Latentes Klassenclustering ist eine weitere methodische Option. Grundsätzlich erstellt die Ökobilanz ein "Modell" für die Heterogenität des Residuums, aus dem die Clusterbildung verwendet wird. Historisch gesehen gab es in der Literatur zwei breite Forschungsströme, beide soziologisch. Die ursprüngliche Ökobilanz stammt aus Lazarsfeld in Columbia in den 50er Jahren, war unbeaufsichtigt und verwendete kategoriale Daten. Die poLCA von R ist ein Beispiel dafür. In jüngerer Zeit wurden überwachte Modelle mit endlichen Gemischen für die Ökobilanz entwickelt. Ich kenne keine R-Module, aber es gibt kostengünstige kommerzielle Software, die dies tut ( Latent Gold ). LG Website hat gute Papiere auf LCA

— Mike Hunter

Es hängt ein wenig von Ihrem Zweck ab, aber wenn Sie nach einem Visualisierungstool suchen, gibt es einen Trick beim Anwenden einer mehrdimensionalen Skalierung auf die Ausgabe zufälliger Waldnähe, die hübsche Bilder erzeugen kann und für eine Mischung aus kategorialen und kontinuierlichen Daten funktioniert. Hier würden Sie die Arten nach Ihren Prädiktoren klassifizieren. Aber - und es ist eine große Einschränkung - ich weiß nicht, ob jemand wirklich weiß, was die Ausgabe dieser Visualisierungen bedeutet.

Eine andere Alternative könnte darin bestehen, eine mehrdimensionale Skalierung auf etwas wie die Gower-Ähnlichkeit anzuwenden.

Es gibt eine hängende Frage - was ist Ihr ultimativer Zweck? Welche Frage möchten Sie beantworten? Ich mag diese Techniken als Erkundungsinstrumente, um Sie vielleicht dazu zu bringen, mehr und bessere Fragen zu stellen, aber ich bin mir nicht sicher, was sie Ihnen selbst erklären oder sagen.

Vielleicht lese ich zu viel in Ihrer Frage, aber wenn Sie untersuchen möchten, welche Prädiktorvariablen die Werte für die Hybriden zwischen den beiden reinen Arten haben, sollten Sie besser ein Modell erstellen, um die Werte für die Prädiktorvariablen zu schätzen, die führen direkt an die Art und die Hybriden. Wenn Sie messen möchten, wie die Variablen zueinander in Beziehung stehen, erstellen Sie möglicherweise eine Korrelationsmatrix - und dafür gibt es viele übersichtliche Visualisierungen.

— Patrick Caldon
quelle

Vielen Dank für die Eingabe. Letztendlich möchte ich von dieser Analyse nur ein quantitatives Maß für die Ähnlichkeit einiger Arten mit anderen haben (ich habe zwei Arten, die nur aufgrund des Gestaltaussehens wie eine andere eng verwandte Art aussehen, aber genetisch einer anderen Art ähnlich erscheinen). was auf eine alte Hybridisierung hindeutet). Der Hauptpunkt dieser Forschungsfrage ist die Untersuchung der Genetik der Gruppe, und diese morphologische Analyse wird einfach die gesamte biologische Geschichte ergänzen. Würde diese mehrdimensionale Skalierung zu einer Visualisierung ähnlich wie bei PCA führen?

— JD

Sie erhalten ähnliche Visualisierungen. Die Idee / Intuition von MDS besteht darin, eine Abbildung von einem hochdimensionalen Raum (für Sie der Raum mit morphologischen Merkmalen) auf einen niedrigdimensionalen Raum (wie eine flache 2D-Ebene) zu erstellen, so dass der Abstand im hochdimensionalen Raum "so ziemlich der Abstand" ist gleich "wie der niedrige Diensionalraum. Sie können dann die flache 2D-Ebene zeichnen. Aber es kommt darauf an, von irgendwoher eine Entfernungsmetrik für den hochdimensionalen Raum zu erhalten.

— Patrick Caldon