Ich gehe davon aus, dass Ihr Fragebogen als eine eindimensionale Skala zu betrachten ist (ansonsten macht Cronbachs Alpha wenig Sinn). Es lohnt sich, eine explorative Faktorenanalyse durchzuführen, um dies zu überprüfen. Außerdem können Sie sehen, wie sich die Artikel auf die Waage beziehen (dh durch ihre Beladung).
Grundlegende Schritte zur Validierung Ihrer Artikel und Ihrer Waage sollten Folgendes umfassen:
- einen vollständigen Bericht über die grundlegenden Statistiken der Elemente (Reichweite, Quartile, zentrale Tendenz, Decken- und Bodeneffekte, falls vorhanden);
- Überprüfen Sie die interne Konsistenz wie bei Ihrem Alpha (geben Sie am besten 95% -Konfidenzintervalle an, da dies stichprobenabhängig ist).
- Beschreiben Sie die zusammenfassende Messung (z. B. Gesamt- oder Durchschnittspunktzahl, auch als Skalenpunktzahl bezeichnet) mit üblichen Statistiken (Histogramm + Dichte, Quantile usw.).
- Überprüfen Sie Ihre zusammenfassenden Antworten auf bestimmte Kovariaten, von denen angenommen wird, dass sie sich auf das von Ihnen bewertete Konstrukt beziehen. Dies wird als Gültigkeit für bekannte Gruppen bezeichnet.
- Wenn möglich, überprüfen Sie Ihre zusammenfassenden Antworten auf bekannte Instrumente, die vorgeben, dass sie dasselbe Konstrukt messen ( gleichzeitige oder konvergente Gültigkeit).
Wenn Ihre Skala nicht eindimensional ist, müssen diese Schritte für jede Subskala ausgeführt werden. Sie können auch die Korrelationsmatrix Ihrer Faktoren herausrechnen, um die Faktorstruktur zweiter Ordnung zu bewerten (oder die Modellierung von Strukturgleichungen oder die Analyse von Bestätigungsfaktoren verwenden) irgendwas du willst). Sie können die Gültigkeit von Konvergenz und Diskriminanz auch mithilfe der Multi-Trait-Skalierung oder der Multi-Trait-Multi-Methoden-Modellierung (basierend auf Interitem-Korrelationen innerhalb und zwischen Skalen) oder auch mithilfe von SEMs bewerten.
Dann würde ich sagen, dass die Item-Response-Theorie nicht viel hilft, wenn Sie nicht daran interessiert sind, Ihren Fragebogen zu verkürzen, einige Items herauszufiltern, die die Funktion von Differential Items zeigen , oder Ihren Test in einer Art computeradaptivem Test zu verwenden .
In jedem Fall ist das Rasch-Modell für binäre Elemente. Bei polytom bestellten Artikeln sind die am häufigsten verwendeten Modelle:
- das abgestufte Reaktionsmodell
- das Teilkreditmodell
- das Bewertungsskalenmodell.
Nur die beiden letzteren stammen aus der Familie Rasch, und sie verwenden im Grunde genommen eine benachbarte Quotenformulierung mit der Idee, dass das Subjekt mehrere Schwellenwerte "überschreiten" muss, um eine bestimmte Antwortkategorie zu unterstützen. Der Unterschied zwischen diesen beiden Modellen besteht darin, dass das PCM nicht vorschreibt, dass die Schwellenwerte auf der Theta- Skala ( Fähigkeit oder Subjektposition auf der latenten Merkmalsskala) gleich verteilt sind. Das abgestufte Reaktionsmodell basiert auf einer kumulativen Quotenformulierung. Beachten Sie, dass diese Modelle alle davon ausgehen, dass der Maßstab eindimensional ist. dh es gibt nur ein latentes Merkmal. Es gibt zusätzliche Annahmen wie z. B. die lokale Unabhängigkeit (dh die Korrelationen zwischen den Antworten werden durch Variation der Fähigkeitsskala erklärt).
Auf jeden Fall finden Sie in Band 20 des Journal of Statistical Software: Special Volume: Psychometrics in R eine sehr vollständige Dokumentation und nützliche Hinweise zur Anwendung psychometrischer Methoden . Grundsätzlich sind die interessantesten R - Pakete , dass ich in meiner täglichen Arbeit verwenden sind: LTM , ERM , psych , psy . Auf andere wird in der CRAN-Task-Ansicht Psychometrics verwiesen . Andere interessante Quellen sind:
Eine gute Übersicht über die Verwendung von FA vs. IRT in der Skalenentwicklung findet sich in der Skalenkonstruktion und -bewertung in der Praxis: Eine Übersicht über die Anwendung der Faktoranalyse gegenüber der Item-Response-Theorie von zehn Holt et al. (Psychological Test and Assessment Modeling (2010) 52 (3): 272 & ndash; 297).