Fragebögen validieren

12

Ich entwerfe einen Fragebogen für meine Dissertation. Ich bin dabei, den Fragebogen zu validieren, den ich mit einem Cronbach-Alpha-Test für die Erstmustergruppe erstellt habe. Die Beantwortung des Fragebogens erfolgt auf einer Likert-Skala. Kann jemand weitere Tests vorschlagen, um die Gültigkeit zu testen. Ich bin kein Statistikexperte, daher wäre jede Hilfe willkommen.

Ich habe einige Nachforschungen angestellt und es scheint, dass ich eine Rasch-Analyse durchführen kann. Hat jemand Websites mit freier Software, auf denen dieser Test und Rat angewendet werden kann?

— ttnphns
quelle

22

Ich gehe davon aus, dass Ihr Fragebogen als eine eindimensionale Skala zu betrachten ist (ansonsten macht Cronbachs Alpha wenig Sinn). Es lohnt sich, eine explorative Faktorenanalyse durchzuführen, um dies zu überprüfen. Außerdem können Sie sehen, wie sich die Artikel auf die Waage beziehen (dh durch ihre Beladung).

Grundlegende Schritte zur Validierung Ihrer Artikel und Ihrer Waage sollten Folgendes umfassen:

einen vollständigen Bericht über die grundlegenden Statistiken der Elemente (Reichweite, Quartile, zentrale Tendenz, Decken- und Bodeneffekte, falls vorhanden);
Überprüfen Sie die interne Konsistenz wie bei Ihrem Alpha (geben Sie am besten 95% -Konfidenzintervalle an, da dies stichprobenabhängig ist).
Beschreiben Sie die zusammenfassende Messung (z. B. Gesamt- oder Durchschnittspunktzahl, auch als Skalenpunktzahl bezeichnet) mit üblichen Statistiken (Histogramm + Dichte, Quantile usw.).
Überprüfen Sie Ihre zusammenfassenden Antworten auf bestimmte Kovariaten, von denen angenommen wird, dass sie sich auf das von Ihnen bewertete Konstrukt beziehen. Dies wird als Gültigkeit für bekannte Gruppen bezeichnet.
Wenn möglich, überprüfen Sie Ihre zusammenfassenden Antworten auf bekannte Instrumente, die vorgeben, dass sie dasselbe Konstrukt messen ( gleichzeitige oder konvergente Gültigkeit).

Wenn Ihre Skala nicht eindimensional ist, müssen diese Schritte für jede Subskala ausgeführt werden. Sie können auch die Korrelationsmatrix Ihrer Faktoren herausrechnen, um die Faktorstruktur zweiter Ordnung zu bewerten (oder die Modellierung von Strukturgleichungen oder die Analyse von Bestätigungsfaktoren verwenden) irgendwas du willst). Sie können die Gültigkeit von Konvergenz und Diskriminanz auch mithilfe der Multi-Trait-Skalierung oder der Multi-Trait-Multi-Methoden-Modellierung (basierend auf Interitem-Korrelationen innerhalb und zwischen Skalen) oder auch mithilfe von SEMs bewerten.

Dann würde ich sagen, dass die Item-Response-Theorie nicht viel hilft, wenn Sie nicht daran interessiert sind, Ihren Fragebogen zu verkürzen, einige Items herauszufiltern, die die Funktion von Differential Items zeigen , oder Ihren Test in einer Art computeradaptivem Test zu verwenden .

In jedem Fall ist das Rasch-Modell für binäre Elemente. Bei polytom bestellten Artikeln sind die am häufigsten verwendeten Modelle:

das abgestufte Reaktionsmodell
das Teilkreditmodell
das Bewertungsskalenmodell.

Nur die beiden letzteren stammen aus der Familie Rasch, und sie verwenden im Grunde genommen eine benachbarte Quotenformulierung mit der Idee, dass das Subjekt mehrere Schwellenwerte "überschreiten" muss, um eine bestimmte Antwortkategorie zu unterstützen. Der Unterschied zwischen diesen beiden Modellen besteht darin, dass das PCM nicht vorschreibt, dass die Schwellenwerte auf der Theta- Skala ( Fähigkeit oder Subjektposition auf der latenten Merkmalsskala) gleich verteilt sind. Das abgestufte Reaktionsmodell basiert auf einer kumulativen Quotenformulierung. Beachten Sie, dass diese Modelle alle davon ausgehen, dass der Maßstab eindimensional ist. dh es gibt nur ein latentes Merkmal. Es gibt zusätzliche Annahmen wie z. B. die lokale Unabhängigkeit (dh die Korrelationen zwischen den Antworten werden durch Variation der Fähigkeitsskala erklärt).

Auf jeden Fall finden Sie in Band 20 des Journal of Statistical Software: Special Volume: Psychometrics in R eine sehr vollständige Dokumentation und nützliche Hinweise zur Anwendung psychometrischer Methoden . Grundsätzlich sind die interessantesten R - Pakete , dass ich in meiner täglichen Arbeit verwenden sind: LTM , ERM , psych , psy . Auf andere wird in der CRAN-Task-Ansicht Psychometrics verwiesen . Andere interessante Quellen sind:

Hinweise zur Verwendung von R für psychologische Experimente und Fragebögen
Verwenden von R für die psychologische Forschung (W. Revelle schreibt derzeit ein Buch über Psychometrie in R )
das PsychoR- Projekt (es konzentriert sich jedoch nicht auf die IRT- und Skalenentwicklung).

Eine gute Übersicht über die Verwendung von FA vs. IRT in der Skalenentwicklung findet sich in der Skalenkonstruktion und -bewertung in der Praxis: Eine Übersicht über die Anwendung der Faktoranalyse gegenüber der Item-Response-Theorie von zehn Holt et al. (Psychological Test and Assessment Modeling (2010) 52 (3): 272 & ndash; 297).

— chl
quelle

11

Während ich alles oben Gesagte unterstütze, würde ich vorschlagen, dass Sie folgendes tun (in ähnlicher Reihenfolge)

Erstens sollten Sie R verwenden, wenn nicht, sollten Sie anfangen. Der folgende Hinweis basiert auf der Verwendung von R.

Ich gehe davon aus, dass Sie an dieser Stelle die deskriptive Statistik et al. Berechnet haben. Wenn nicht, hat das Psych-Paket eine describe () -Funktion, die Ihnen die benötigten Statistiken geben sollte.

Installieren Sie das Psych-Paket von CRAN. Laden Sie das Psych-Paket. Verwenden Sie die fa.parallel-Routine für Ihre Daten. Dies sollte Ihnen eine Reihe von Faktoren bieten, die Sie beibehalten müssen. Verwenden Sie dann die VSS (Routine). Dadurch wird das MAP-Kriterium berechnet, das eine andere (normalerweise) Anzahl von Faktoren ergibt, die beibehalten werden müssen. Verwenden Sie für jede Anzahl von Faktoren eine Form der Faktorenanalyse (keine Hauptkomponenten) und eine schräge Rotation. Wenn Ihre Faktoren nach einer schrägen Drehung nicht korrelieren, wechseln Sie zu einer orhogonalen Drehung. Dies ist, da eine orthogonale Struktur aus einer schrägen Drehung bestimmt werden kann, nicht aber umgekehrt.

Extrahieren Sie alle Faktorlösungen zwischen dem MAP-Kriterium und dem Parallelanalysekriterium. Bestimmen Sie, welche davon die besten Anpassungsindizes aufweist und am sinnvollsten ist. Dies ist die, die Sie behalten sollten.

Im IRT würde ich vorschlagen, mit eRm zu beginnen, da ich sowohl ltm als auch eRm verwendet habe. Es hat bessere Grafikfunktionen für Ihre Modelle und die Unterstützung für polytome Modelle ist größer. Das heißt, es passt nur zu Rasch-Modellen, und häufig entsprechen Daten aus psychologischen Fragebögen nicht den Anforderungen für sie. Viel Glück! Psychometrie macht viel Spaß, wie Sie sicher feststellen werden.

— richiemorrisroe
quelle

1

(+1) Das hört sich gut an. Vielen Dank, dass Sie Ihre Erfahrungen mit IRT-Modellierung und FA geteilt haben. Abgesehen von den Grafikfunktionen entspricht der bedingte Ansatz in eRm eher dem anfänglichen Denken von Theta von Rasch (als fester Parameter).

— Chl

1

Die Validierung eines Fragebogens bedeutet, zu beweisen, dass er das misst, was er messen soll. Ich würde sagen, dies ist meist keine statistische Frage und kann nicht beantwortet werden, ohne den spezifischen Inhalt Ihres Fragebogens zu kennen. Bei Cronbach alpha geht es nicht um die Gültigkeit, sondern um die interne Konsistenz, die in gewisser Weise mit der Zuverlässigkeit zusammenhängt (oder man kann sagen, dass dies der Fall ist) Zuverlässigkeit, wenn Ihre Fragen austauschbar sind - aber nicht).

Was können Sie also tun, um Ihren Fragebogen zu validieren? Sie könnten untersuchen, welche psychologischen Prozesse zu bestimmten Ergebnismustern führen (z. B. indem Sie versuchen, solche Muster durch experimentelle Manipulationen hervorzurufen, oder indem Sie ein lautes Denkverfahren anwenden ["protocol analysis", Ericsson & Simon, 1992]). Oder vergleichen Sie einige kontrastierende Gruppen (z. B. Patienten mit Kontrollen), die unterschiedliche Werte aufweisen sollten. Oder korrelieren Sie es mit einem externen Kriterium, das mit der gemessenen Eigenschaft korreliert werden sollte. Oder messen Sie das Merkmal mit dem Psychoscope (TM) und verwenden Sie es als Kriterium.

Die anderen Antworten sind nützlicher, um aufzuzeigen, was Sie wahrscheinlich realistisch tun können - auch wenn sich das meiste streng genommen nicht auf die Gültigkeit bezieht (außer den Verweisen von Chi auf die "bekannte Gruppengültigkeit" und die externe Gültigkeit).

Siehe auch Markus & Borsboom (2013) für eine moderne Herangehensweise an die Gültigkeit (diese und einige andere nützliche Referenzen auf der Homepage von Borsboom ).

— lebatsnok
quelle