Mein Haftungsausschluss : Mir ist klar, dass diese Frage seit einiger Zeit stillsteht, aber es scheint eine wichtige zu sein, und eine, die Sie beabsichtigt haben, um mehrere Antworten auszulösen. Ich bin ein Sozialpsychologe und nach den Klängen ein bisschen wohler mit solchen Entwürfen als Henrik (obwohl seine Besorgnis über kausale Interpretationen absolut legitim ist).
Unter welchen Bedingungen ist SEM eine geeignete Datenanalysetechnik?
Für mich besteht diese Frage eigentlich aus zwei unterschiedlichen Unterfragen:
- Warum sollte man SEM überhaupt verwenden?
- Wenn sich ein Forscher für die Verwendung von SEM entschieden hat, welche datenbezogenen Anforderungen gelten für die Verwendung von SEM?
Warum sollte man SEM überhaupt verwenden?
SEM ist ein differenzierterer und komplizierterer - und daher weniger zugänglicher - Ansatz für die Datenanalyse als andere, allgemeinere lineare Modellierungsansätze (z. B. ANOVAs, Korrelationen, Regressionen und ihre Erweiterungen usw.). Alles, was Sie mit diesen Ansätzen tun können, können Sie mit SEM tun.
Daher denke ich, dass angehende Benutzer zunächst genau abwägen sollten, warum sie gezwungen sind, SEM überhaupt zu verwenden. Natürlich bietet SEM seinen Benutzern einige leistungsstarke Vorteile, aber ich habe Artikel besprochen, in denen keiner dieser Vorteile genutzt wird, und das Endprodukt ist ein Abschnitt zur Datenanalyse in einem Artikel, der für typische Leser unnötigerweise schwieriger zu verstehen ist . Es ist einfach nicht die Mühe wert - für den Forscher oder den Leser -, wenn die Vorteile von SEM im Vergleich zu anderen Datenanalyse-Ansätzen nicht genutzt werden.
Was sehe ich als Hauptvorteil eines SEM-Ansatzes? Die großen sind meiner Meinung nach:
(1) Modellierung latenter Variablen : Mit SEM können Benutzer strukturelle Beziehungen (Varianzen, Kovarianzen / Korrelationen, Regressionen, Gruppenmittelwertdifferenzen) zwischen nicht beobachteten latenten Variablen untersuchen, die im Wesentlichen die gemeinsame Kovarianz zwischen einer Gruppe von Variablen (z. B. Elemente einer Angst) darstellen messen Sie, was Ihre Schüler verwenden könnten).
Das große Verkaufsargument für die Analyse latenter Variablen (z. B. latente Angst) im Vergleich zu einer beobachteten Bewertung des Konstrukts (z. B. ein Durchschnitt der Angstelemente) ist, dass latente Variablen fehlerfrei sind - latente Variablen werden aus gemeinsamer Kovarianz gebildet. und der Irrtum wird theoretisiert, um mit nichts zu kovären. Dies bedeutet eine höhere statistische Leistung, da sich Benutzer nicht mehr um die Unzuverlässigkeit der Messung sorgen müssen, um die Auswirkungen, die sie zu modellieren versuchen, abzuschwächen.
Ein weiterer, eher unauffälliger Grund, über die Verwendung von SEM nachzudenken, besteht in einigen Fällen darin, dass dies eine konstruktivere Methode ist, um unsere Konstrukttheorien zu testen. Wenn Ihre Schüler zum Beispiel drei verschiedene Angstmaßstäbe verwenden würden, wäre es nicht besser, die Ursachen / Konsequenzen dessen, was diese drei Maßstäbe gemeinsam haben - vermutlich Angst - in einem SEM-Rahmen zu verstehen, anstatt irgendwelche zu privilegieren insbesondere eine Maßnahme wie das Maß der Angst?
(2) Modellierung mehrerer abhängiger Variablen: Auch wenn jemand SEM nicht zum Modellieren latenter Variablen verwenden wird, kann es dennoch als Framework für die gleichzeitige Analyse mehrerer Ergebnisvariablen in einem Modell nützlich sein. Vielleicht sind Ihre Schüler daran interessiert, herauszufinden, wie dieselben Prädiktoren mit einer Reihe verschiedener klinisch relevanter Ergebnisse verbunden sind (z. B. Angstzustände, Depressionen, Einsamkeit, Selbstwertgefühl usw.). Warum sollten Sie vier separate Modelle ausführen (wodurch die Fehlerrate von Typ I erhöht wird), wenn Sie nur ein Modell für alle vier gewünschten Ergebnisse ausführen können? Dies ist auch ein Grund, SEM zu verwenden, wenn es um bestimmte Arten von abhängigen Daten geht, bei denen mehrere abhängige Befragte sowohl Vorhersage- als auch Ergebnisantworten liefern können (z. B. dyadische Daten; siehe Kenny, Kashy und Cook, 2006).
(3) Modellieren von Annahmen, anstatt sie zu treffen: Bei vielen anderen Ansätzen zur Datenanalyse (z. B. ANOVA, Korrelation, Regression) treffen wir eine Menge Annahmen über die Eigenschaften der Daten, mit denen wir uns befassen - wie z. B. Homogenität von Varianz / Homoskedastizität. SEM (in der Regel kombiniert mit einem latenten Variablenansatz) ermöglicht es Benutzern, Varianzparameter gleichzeitig neben Mittelwerten und / oder Korrelationen / regressiven Pfaden zu modellieren. Dies bedeutet, dass Benutzer anfangen können, Hypothesen zur Variabilität zu theoretisieren und zu testen, zusätzlich zu mittleren Differenzen / Kovariabilität, anstatt Variabilität nur als nervigen annahme-bezogenen Nachgedanken zu behandeln.
Eine weitere prüfbare Annahme, wenn die Gruppenmittelwerte auf einigen variable Vergleich, ist , ob diese Variable tatsächlich bedeutet die gleiche Sache zu jeder Gruppe - bezeichnet als Messung Invarianz in der REM - Literatur (siehe Vanden & Lance, 2000, für eine Überprüfung dieses Prozesses ). Wenn ja, dann sind Vergleiche der Durchschnittswerte dieser Variablen gültig. Wenn Gruppen jedoch ein signifikant unterschiedliches Verständnis von etwas haben, ist der Vergleich der Durchschnittswerte zwischen Gruppen fraglich. Wir machen diese spezielle Annahme implizit die ganze Zeit in der Forschung mithilfe von Gruppenvergleichen.
Und dann gibt es die Annahme, dass, wenn Sie Artikelbewertungen (z. B. anhand eines Angstmaßes) mitteln oder summieren, um einen aggregierten Index zu erstellen, jeder Artikel ein gleich gutes Maß für das zugrunde liegende Konstrukt darstellt (weil jeder Artikel im gleich gewichtet ist) Mittelwertbildung / Summierung). SEM eliminiert diese Annahme, wenn latente Variablen verwendet werden, indem unterschiedliche Faktorladewerte (die Zuordnung zwischen dem Element und der latenten Variablen) für jedes Element geschätzt werden.
Schließlich können andere Annahmen zu den Daten (z. B. Normalität) verwaltet werden, obwohl sie für das SEM immer noch wichtig sind (z. B. durch die Verwendung "robuster" Schätzer, siehe Finney & DiStefano, 2008), wenn die Daten nicht übereinstimmen bestimmte Kriterien (geringe Schiefe und Kurtosis).
(4) Angeben von Modellbeschränkungen: Der letzte große Grund, der meiner Meinung nach die Verwendung von SEM in Betracht zieht, ist, dass es sehr einfach ist, bestimmte Hypothesen, die Sie möglicherweise zu Ihrem Datenmodell haben, zu testen, indem bestimmte Pfade in Ihrem Modell erzwungen werden (in SEM-Begriffen "eingeschränkt" werden) bestimmte Werte annehmen und untersuchen, wie sich dies auf die Anpassung Ihres Modells an Ihre Daten auswirkt. Einige Beispiele umfassen: (A) Beschränken eines Regressionswegs auf Null, um zu testen, ob dies im Modell erforderlich ist; (B) mehrere Regressionswege enthalten, die gleich groß sind (z. B. ist die Assoziationsstärke für einen Prädiktor für Angstzustände und Depressionen ungefähr gleich?); (C) Einschränken der Messparameter, die zur Bewertung der Messinvarianz erforderlich sind (oben beschrieben); (D) Beschränken eines Regressionspfades auf die gleiche Stärke zwischen zwei verschiedenen Gruppen,
Was sind die datenbezogenen Anforderungen für SEM?
Die datenbezogenen Anforderungen für SEM sind recht bescheiden. Sie benötigen eine angemessene Stichprobengröße, damit Ihre Daten den Annahmen des ausgewählten Modellschätzers entsprechen (Maximum-Liklihood ist typisch).
Es ist schwierig, eine allgemeingültige Empfehlung für die Stichprobengröße abzugeben. Basierend auf einigen einfachen Simulationen schlägt Little (2013) vor, dass für sehr einfache Modelle 100-150 Beobachtungen ausreichen könnten, der Bedarf an Stichprobengröße jedoch mit zunehmender Komplexität der Modelle und / oder mit zunehmender Zuverlässigkeit / Validität der in verwendeten Variablen zunehmen wird das Modell nimmt ab. Wenn die Komplexität des Modells ein Problem darstellt, können Sie in Betracht ziehen, die Indikatoren Ihrer latenten Variablen zu parzellieren, aber nicht alle sind bei diesem Ansatz beteiligt (Little, Cunningham, Shahar & Widaman, 2002). Im Allgemeinen sind größere Stichproben (ich strebe in meiner eigenen Forschung ein Minimum von 200 an) besser, wenn sie alle gleich sind.
Das Erfüllen der Annahmen eines ausgewählten Schätzers ist normalerweise recht einfach zu beurteilen (z. B. Betrachten der Werte für Schiefe und Kurtosis für einen Schätzer für die maximale Wahrscheinlichkeit). Und selbst wenn Daten von angenommenen Eigenschaften abweichen, könnte eine Untersuchung die Verwendung eines "robusten" Schätzers (Finney & DiStefano, 2008) oder eines Schätzers in Betracht ziehen, der eine andere Art von Daten annimmt (z. B. ein kategorialer Schätzer, der am wenigsten diagonal gewichtet ist) Quadrate).
Alternativen zu SEM für die Datenanalyse?
Wenn ein Forscher die Vorteile eines von mir oben hervorgehobenen SEM-Ansatzes nicht nutzen möchte, würde ich empfehlen, sich an die einfachere und zugänglichere Version dieser bestimmten Analyse zu halten (z. B. t -Tests, ANOVAs, Korrelationsanalysen, Regressionsmodelle (einschließlich Mediations-, Moderations- und bedingte Prozessmodelle). Die Leser kennen sie besser und verstehen sie daher besser. Es lohnt sich einfach nicht, die Leser mit den SEM-Details zu verwechseln, wenn Sie SEM im Wesentlichen mit dem gleichen Effekt wie einen einfacheren analytischen Ansatz verwenden.
Hinweise für Forscher, die die Verwendung von REM in Betracht ziehen?
Für diejenigen, die neu bei SEM sind:
- Holen Sie sich einen umfassenden, barrierefreien SEM-Grundlagentext. Ich mag Beaujean (2014), Brown (2015; die frühere Ausgabe ist ebenfalls solide) und Little (2013; gute allgemeine Einführung, obwohl sie sich später speziell auf Längsschnittmodelle konzentriert).
- Erfahren Sie, wie Sie das
lavaan
Paket für verwenden R
(Rosseel, 2012). Die Syntax ist so einfach wie die SEM-Syntax, die Funktionalität ist breit genug für die SEM-Anforderungen vieler Leute (definitiv für Anfänger) und kostenlos. Das Beaujean-Buch bietet eine großartige Einführung in SEM und das lavaan
Paket.
- Konsultieren / verwenden Sie CrossValidated und StacksOverflow regelmäßig. Beim Anpassen von SEM-Modellen können unerwartete Dinge passieren, und es besteht die Möglichkeit, dass viele der seltsamen Dinge, die Sie möglicherweise erleben, bereits in Stacks beschrieben und beschrieben wurden.
- Wie Herik betont, bedeutet dies nicht, dass SEM bei einer Querschnitts- / nicht-experimentellen Studie zur Feststellung der Kausalität beiträgt, nur weil Sie ein Modell angeben, das Kausalzusammenhänge impliziert. Es lohnt sich auch, die Verwendung von SEM zur Analyse von Daten aus Längs- und / oder Versuchsentwürfen in Betracht zu ziehen.
Und für diejenigen, die beginnen, SEM tatsächlich zu verwenden:
- Irgendwann werden Sie versucht sein, korrelierte Residuen zu spezifizieren, um die Passform Ihres Modells zu verbessern. Nicht. Zumindest nicht ohne guten a priori Grund. Meistens ist eine größere Stichprobe oder ein einfacheres Modell die Heilung.
- Vermeiden Sie die Verwendung der Methode zur Identifizierung von Markervariablen für latente Variablen (dh Fixieren der ersten Faktorladung auf 1). Dieser Indikator wird als "Goldstandard" -Indikator für Ihre latente Variable angesehen, wenn in den meisten Fällen kein Grund zur Annahme besteht, dass dies der Fall ist. Beachten Sie, dass dies in den meisten Programmen die Standardeinstellung für die Identifizierung ist.
Verweise
Beaujean, AA (2014). Modellierung latenter Variablen mit R: Eine schrittweise Anleitung . New York, NY: Routledge.
Brown, TA (2015). Bestätigungsfaktoranalyse für angewandte Forscher (2. Auflage). New York, NY: Guilford Press.
Finney, SJ & DiStefano, C. (2008). Nicht normale und kategoriale Daten in der Strukturgleichungsmodellierung. In GR Hancock & RD Mueller (Hrsg.), Strukturgleichungsmodellierung: Ein zweiter Kurs (S. 269-314). Veröffentlichung im Informationszeitalter.
Kenny, DA, Kashy, DA und Cook, WL (2006). Dyadische Datenanalyse . New York, NY: Guilford Press.
Little, TD (2013). Modellierung von Längsstrukturgleichungen . New York, NY: Guilford Press.
Little, TD, Cunningham, WA, Shahar, G. & Widaman, KF (2002). Zu paketieren oder nicht paketieren: Die Frage erforschen, die Vorzüge abwägen. Structural Equation Modeling , 9 , 151-173.
Rosseel, Y. (2012). lavaan: Ein R-Paket zur Modellierung von Strukturgleichungen. Journal of Statistical Software , 48 (2), 1-36.
Vandenberg, RJ & Lance, CE (2000). Eine Übersicht und Synthese der Literatur zur Messinvarianz: Vorschläge, Praktiken und Empfehlungen für Organisationsforscher. Methoden der Organisationsforschung , 3 , 4-70.