Wie kann man Likert-Skalen mit einer unterschiedlichen Anzahl von Kategorien im Zeitverlauf vergleichen?

8

Lassen Sie Jahr 1 die Daten des letzten Jahres und Jahr 2 die Daten des Jahres sein.

Angenommen, Sie hatten in Jahr 1 eine Likert-Skala von 1 bis 9 (kategorisch / ordinal) und in Jahr 2 für dieselbe Frage eine Likert-Skala von 1 bis 5 (kategorisch / ordinal).

Was wären einige der Dinge, die Sie (wenn überhaupt) versuchen würden, um die Daten im Wert von zwei Jahren zu vergleichen?

Was ich bisher gemacht habe:

Vergleich der Verteilungen (Form, Schräglauf und Kurtosis, statistisch gleich)
Die Neuskalierung von 1-9 auf 1-5 und die Änderungen der Frequenzen im Jahresvergleich entsprechen den logischen Erwartungen, die aus Branchennachrichten / -ereignissen und qualitativen Forschungsergebnissen abgeleitet wurden.

Hinweis: Dies sind keine Hausaufgaben. Es kann auch keine eindeutige Antwort haben. Aber ich brauche eine Hand!

Danke im Voraus!

scales likert

— Brandon Bertelsen
quelle

Warum sagst du Likert-Skala und dann Kategorie / Ordnungszahl? Likert bedeutet Intervall skaliert. Können Sie das ein wenig klären?

— Henrik

Um genauer zu sein, sollte der Titel in Likert "item" geändert werden. In Bezug auf Ihren zweiten Punkt denke ich, dass viele Leute sich nicht darüber einig sind, ob ein Likert-Artikel Intervall- oder Ordnungsdaten enthält oder nicht. Für meine Frage ist es eine Vereinbarungsskala, von starkem Widerspruch bis starker Übereinstimmung. Jede Vereinbarungsebene ist eine "Kategorie" und der Abstand zwischen "Ordnungszahl". Aber lassen Sie uns nicht in Semantik verstrickt sein!

— Brandon Bertelsen

@Henrik @Brandon Unter dem Skalen- Tag gab es bereits einige Diskussionen über die Art und den Umgang mit Likert-Skalen / Gegenständen.

— Chl

5

Dies ist keine vollständige Antwort. nur ein paar punkte:

Wenn Sie beide Versionen der Skala für eine Teilstichprobe verwalten können, können Sie die entsprechenden Bewertungen für die beiden Antwortformate abschätzen. Dann könnten Sie eine Umrechnungsformel anwenden, die empirisch gerechtfertigt ist. Ich kann mir eine Reihe von Möglichkeiten vorstellen, dies zu tun. Es würde mich interessieren, ob jemand eine wissenschaftliche Arbeit über bewährte Verfahren dafür hat.
Wenn Sie eine einfache Neuskalierung durchführen (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), gibt es keine Garantie dafür, dass dies gerechtfertigt ist. Als allgemeine Aussage (zumindest nach meiner Erfahrung in organisatorischen Einstellungen) haben Änderungen des Wortlauts von Elementen und Änderungen der Skalierungsoptionen wahrscheinlich einen größeren Einfluss auf die Antworten als jede tatsächliche Änderung des Attributs von Interesse. Zumindest sollten Sie prüfen, ob die verwendeten Skalenanker in beiden Antwortformaten ungefähr gleich sind.

— Jeromy Anglim
quelle

Als Hinweis zu Ihrem zweiten Kommentar. Die Anker sind die gleichen wie im Vorjahr der Umfrage. Im Wesentlichen wurde die Granularität der Skala verringert.

— Brandon Bertelsen

4

[Technisch gesehen haben Sie Umfrageelemente, keine Likert-Skalen. Letztere bestehen aus mehreren Gegenständen. Siehe zum Beispiel Paul Spectors Summated Rating Scale Construction {Sage}.]

Die Schritte, die Sie unternehmen, müssen von der Zielgruppe abhängen, für die Sie Bericht erstatten. Wenn es akademisch und streng ist, wie ein Dissertationskomitee, stehen Sie möglicherweise vor besonderen Herausforderungen. Wenn dies nicht der Fall ist und wenn es mit dem gängigen 1-5-Format vertraut ist, können Sie es neu skalieren, um es anzupassen, und dann Mittelwerte und Standardabweichungen melden (insbesondere, da sich Formen, Schräglauf und Kurtosis von Jahr zu Jahr nicht unterscheiden. Ich nehme die Verteilungen an sind normal genug, um die zentrale Tendenz genau auszudrücken?).

-> Warum behandle ich Ihre Variablen als Intervall-Variablen? Puristen können sagen, dass Variablen auf Ordinalebene nicht über Mittel oder SD gemeldet werden sollten. Nun, Ihre Kommentare legen nahe, dass Sie es trotz der Verwendung von "kategorial / ordinal" mit einer Ordnungsstufe tun, die Sie tatsächlich als Intervall behandeln möchten -Niveau. Warum sollten Sie sonst Schiefe oder Kurtosis beurteilen? Ich vermute, dass auch Ihr Publikum damit einverstanden ist und sich auf Statistiken auf Intervallebene wie Mittelwerte beziehen kann.

Es hört sich gut an, dass Sie die Daten bereits grafisch untersucht haben. Wenn Sie über die Beurteilung der Größe des Unterschieds hinausgehen und einen Hypothesentest durchführen möchten, führen Sie einen T-Test (unabhängig oder korreliert, abhängig von Ihren Daten) durch, in dem Sie die 1-5 Punkte vor und die 1-5 Punkte nach dem Test vergleichen. und Ermitteln eines Konfidenzintervalls für die mittlere Differenz. Hier gehe ich davon aus, dass Sie zufällige Stichproben aus einer Population haben.

— rolando2
quelle

Ja, mir ist klar, dass ich einige dieser Dinge nicht nach Ordnungsdaten "durchsuchen" soll, aber es ist wirklich das einzige Werkzeug, an das ich denken kann, um die zwei Jahre zu vergleichen. Wirklich, ich habe mir Dinge angesehen, die die Verteilungen vergleichen können. Ich denke jedoch, dass Testmittel plausibel sein könnten - aber ein Konfidenzintervall muss nicht unbedingt meinen Mittelwert enthalten, da es viele strukturelle Änderungen in der Branche gegeben hat, für die diese Frage im Jahresvergleich überprüft wird.

— Brandon Bertelsen

1

Ziehen Sie in Betracht, die Antworten aus beiden Datensätzen in Z-Scores umzuwandeln. Jede Art von Neuskalierung wird eine Ad-hoc-Qualität haben, aber zumindest auf diese Weise vermeiden Sie, dass ein bestimmter Satz von Intervallen für ein Element mechanisch als gleichwertig mit einem bestimmten Satz für den anderen behandelt wird. Ich würde diesen Weg definitiv gehen, wenn ich die Elemente als Prädiktoren oder Ergebnisvariablen für irgendeine Art von Varianzanalyse verwenden würde. Wenn Sie irgendetwas mit zusammengesetzten Skalen tun würden - solche, die Likert-Kennzahlen aggregieren -, würden Sie wahrscheinlich im Wesentlichen das tun, was ich vorgeschlagen habe: Entweder würden Sie die Elementantworten vor dem Summieren in Z-Scores konvertieren oder ihren Mittelwert in Form bringen die zusammengesetzte Skala; oder Sie würden eine Skala mit Faktoranalyse oder einer anderen Technik bilden, die die Kovarianzmatrix der Elemente verwendet, um die Affinität der Antworten auf diese zu bestimmen.

— dmk38
quelle

2

Es scheint, dass dies Vergleiche von Jahr zu Jahr zu gleichen Mitteln und Abweichungen zwingen würde, wodurch die meisten Informationen über zeitliche Veränderungen künstlich eliminiert würden.

— whuber

wahr. Ich habe nicht daran gedacht, die Mittelwerte der beiden Stichproben zu vergleichen. In diesem Fall ist die Konvertierung in Z-Scores selbstverdächtig. Hatte Kovarianz im Sinn - z. B. die Beurteilung, wie sich ein oder mehrere Prädiktoren auf die Likert-Item-Punktzahl in einem Jahr oder in beiden zusammen beziehen. Ich neige dazu zu denken, dass Kovarianzmatrizen das einzige sind, woraus man lernen sollte, wenn man Likert-Elemente verwendet (die Leute neigen dazu, die Punkte auf die Kennzahl mit zu viel Bedeutung zu investieren - "aber meine geht auf 11"). Hoffe, ich habe niemanden aus der Bahn geworfen.

— dmk38

Einigermaßen gehen einige Vergleiche verloren. Ein Großteil meiner Analyse konzentriert sich jedoch eher auf die Netto-Promotor-Scores als auf Mittelwerte und Varianz. Also werde ich es ausprobieren und sehen, was es mir bringt. Prost auf die Antwort.

— Brandon Bertelsen

1

Ich musste nur genau dieses Problem lösen. Wir hatten eine 9-Punkte-Skala, die auf einem 10 Jahre alten Tracker in eine 5-Punkte-Skala geändert wurde. Nicht nur das, sondern auch einige Aussagen haben sich geändert. Und wir haben als eine Form des Net Promoter Score berichtet.

Die Lösung, die wir angewendet haben, ist ein gepaartes Design, bei dem jeder Befragte einige der alten Aussagen auf die alte Art und Weise (sowie auf die gesamte neue Art und Weise) fragt. Wir haben nur ein paar nach dem alten Weg gefragt und nicht alle, da dies die Müdigkeit der Befragten minimiert. Wir nehmen dann jede Punktzahl auf der 9-Punkte-Skala und finden ihren Durchschnitt auf der 5-Punkte-Skala und korrigieren damit die Skalenänderung UND die Anweisungsänderung. Dies ist ziemlich ähnlich zu dem, was in einigen Artikeln als "semantische Beurteilung des festen Wortwerts" bezeichnet wird, aber anstatt Experten zur Bestimmung des "Wortwerts" zu verwenden, haben wir die tatsächlichen Daten der Befragten verwendet.

Wenn zum Beispiel die durchschnittliche Punktzahl auf der 5-Punkte-Skala 1,2 für diejenigen Befragten betrug, die 2 auf der 9-Punkte-Skala beantworteten, würden wir alle 2 auf der 9-Punkte-Skala ersetzen, um Jahre direkt mit verschiedenen Skalen auf der 5-Punkte-Skala vergleichen zu können mit 1.2, dann mache dasselbe für alle 9 Punkte und gehe wie gewohnt vor.

Ähnliches haben wir für die Meldung von NPS getan. Aber zuerst haben wir die 5-Punkte-Skala in die NPS-Skala von 1 (Promotor), 0 (passiv), -1 (Kritiker) umgewandelt, z. B. wenn der Durchschnitt auf der NPS-Skala 0,9 für eine 2 auf der 9-Punkte-Skala betrug, haben wir sie ersetzt Mit 0,9 machen Sie dann dasselbe für alle 9 Punkte und berechnen dann den NPS normal.

Um die Wirksamkeit zu bewerten, haben wir zuerst die "unkorrigierten" NPS-Werte anhand der 9- und 5-Punkte-Skalen verglichen, um festzustellen, ob überhaupt ein Problem aufgetreten ist, und dann die "korrigierten". Ich habe die Daten noch nicht, werde mich aber melden, wenn wir das tun!

— Chris Howden
quelle