Welche Kriterien müssen erfüllt sein, um auf einen „Deckeneffekt“ schließen zu können?


13

Nach der SAGE Encyclopedia of Social Science Forschungsmethoden

[a] Der Obergrenzeneffekt tritt auf, wenn eine Kennzahl eine bestimmte Obergrenze für potenzielle Reaktionen besitzt und eine große Konzentration von Teilnehmern bei oder nahe dieser Obergrenze punktet. Die Skalendämpfung ist ein methodisches Problem, das auftritt, wenn die Varianz auf diese Weise eingeschränkt wird. … Zum Beispiel kann ein Deckeneffekt auftreten, wenn Einstellungen gemessen werden, bei denen eine hohe Punktzahl auf eine günstige Einstellung hinweist und die höchste Antwort nicht die bestmögliche positive Bewertung liefert. … Die beste Lösung für das Problem der Deckeneffekte sind Pilotversuche, mit denen das Problem frühzeitig erkannt werden kann . Wenn ein Obergrenzeneffekt gefunden wird und das Ergebnis die Aufgabenleistung ist, kann die Aufgabe schwieriger gemacht werden, um den Bereich möglicher Antworten zu vergrößern. 1 [Betonung hinzugefügt]

Es scheint zu sein , viel von Beratung und Fragen ( und hier in dem Zitat oben beschrieben) , die sich mit der Analyse von Daten , die zeigen , Decke Effekte ähnlich.

Meine Frage mag einfach oder naiv sein, aber wie erkennt man tatsächlich , dass in den Daten ein Deckeneffekt vorhanden ist? Genauer gesagt, es wird ein psychometrischer Test erstellt, bei dem der Verdacht besteht, dass er zu einem Deckeneffekt führt (nur visuelle Prüfung). Anschließend wird der Test überarbeitet, um einen größeren Wertebereich zu erzielen. Wie kann gezeigt werden, dass der überarbeitete Test den Deckeneffekt aus den generierten Daten entfernt hat? Gibt es einen Test, der zeigt, dass es in Datensatz a einen Deckeneffekt gibt, in Datensatz b jedoch keinen Deckeneffekt ?

Mein naiver Ansatz wäre es, nur die Verteilungsverzerrung zu untersuchen und wenn sie nicht verzerrt ist, zu dem Schluss zu kommen, dass es keinen Deckeneffekt gibt. Ist das zu simpel?

Bearbeiten

Um ein konkreteres Beispiel hinzuzufügen, sage ich, ich entwickle ein Instrument, das ein latentes Merkmal x misst, das mit dem Alter zunimmt, sich aber schließlich abschwächt und mit zunehmendem Alter abnimmt. Ich lasse die erste Version, die einen Bereich von 1 bis 14 hat, einige Pilotversuche durchführen und stelle fest, dass möglicherweise ein Deckeneffekt vorliegt (eine große Anzahl von Antworten bei oder in der Nähe von 14, dem Maximum) Aber warum gibt es eine strenge Methode, um diese Behauptung zu stützen?

Dann überarbeite ich das Maß, um einen Bereich von 1 bis 20 zu haben und mehr Daten zu sammeln. Ich sehe, dass der Trend eher meinen Erwartungen entspricht, aber woher weiß ich, dass der Messbereich groß genug ist. Muss ich es nochmal überarbeiten? Optisch scheint es in Ordnung zu sein, aber gibt es eine Möglichkeit, es zu testen, um meinen Verdacht zu bestätigen?

Bildbeschreibung hier eingeben

Ich möchte wissen, wie ich diesen Deckeneffekt in den Daten erkennen kann, anstatt ihn nur anzusehen. Die Grafiken stellen tatsächliche Daten dar, nicht theoretische. Durch die Erweiterung der Reichweite des Instruments wurde eine bessere Datenverteilung erzielt. Reicht dies jedoch aus? Wie kann ich das testen?


1 Hessling, R., Traxel, N. & Schmidt, T. (2004). Ceiling-Effekt. In Michael S. Lewis-Beck, A. Bryman und Tim Futing Liao (Hrsg.), The SAGE Encyclopedia of Social Science Research Methods . (S. 107). Thousand Oaks, CA: Sage Publications, Inc., doi: 10.4135 / 9781412950589.n102


4
Um Fortschritte zu erzielen, müsste eine operationelle Definition des "Deckeneffekts" erstellt werden. Dies könnte im Allgemeinen problematisch sein: Schließlich kann fast jede gemessene Größe einen bestimmten Wert nicht realistisch überschreiten, z. B. 100% in einem Testergebnis oder eine chemische Konzentration, die Obergrenze für die Ablesbarkeit eines Instruments und so weiter, so gut wie Alle Daten unterliegen einer inhärenten Obergrenze. Obwohl die beabsichtigte Bedeutung von "Deckeneffekt" intuitiv aus Ihren netten Beispielen hervorgeht, können Sie uns helfen, indem Sie genau klären, was aus Ihren Daten "entfernt" werden muss und warum.
whuber

1
@whuber Sie haben Recht, dass der Begriff auf verschiedene Arten verwendet wird, aber in diesem Fall spreche ich davon, ein Lineal lang genug zu machen, um alle Dinge zu übertreffen, die ich messen möchte. Wenn Sie Tests erstellen, möchten Sie mit Sicherheit genügend Elemente aus einer Reihe von Schwierigkeiten einbeziehen, damit niemand 100% erhält. Andernfalls wissen Sie nicht, ob die Fähigkeit dieser Person tatsächlich die Grenze des Tests oder höher ist. Es muss nichts aus den Daten entfernt werden, aber das Instrument muss überarbeitet werden, bis es keine zensierten Datenpunkte mehr liefert.
Plafond

Vielen Dank. Ich bin mir jedoch immer noch nicht sicher, was Sie unter "Deckeneffekt" verstehen, da keine Ihrer Abbildungen offensichtliche Beweise für irgendeine Art von Zensur zeigt - zumindest nicht mit festgelegten Zensurgrenzen, wie sie mit einem Test erreicht werden. Tatsächlich ähnelt der Wechsel vom linken zum rechten Bereich eher einer nichtlinearen Eins-zu-Eins-Neuausdruckung der vertikalen Achse, die sich nicht auf die Obergrenze der Daten auswirkt. Ich frage mich daher, ob Sie wirklich etwas völlig anderes befürchten, beispielsweise die Asymmetrie von Regressionsresten.
whuber

1
@whuber-Jitter wurde hinzugefügt, da sich die meisten Punkte überlappen. Wenn sich die Grafiken nicht auf meine Frage beziehen, habe ich offensichtlich keine Ahnung, wovon ich spreche. Für mich scheint es einen Deckeneffekt zu geben, wie er von Hessling, Traxel & Schmidt beschrieben wurde. Aufgrund Ihrer Kommentare und des völligen Mangels an Interesse an dieser Frage sehe ich jedoch möglicherweise ein Problem, bei dem es keines gibt. Vielen Dank für Ihre Anregungen und Erkenntnisse. Ich schätze es.
Plafond

1
@ Johan Ich verstehe. Im Geiste Ihrer Frage fällt mir ein, dass eine geringfügige Änderung Ihrer Idee eine gute sein könnte. Sofern wir keinen Grund zur Annahme haben, dass die Residuen normalverteilt sein müssen, könnten wir versuchen, eine monotone Transformation der Antwort zu finden, bei der die Residuenverteilungen homoskedastisch sind, wenn die Antwort niedrig ist, und möglicherweise abgeschnitten werden, wenn die Antwort hoch ist. Mit anderen Worten, der Test sollte möglicherweise nicht auf Normalität ausgerichtet sein, sondern auf eine konsistente Form und Skalierung der Antwort abzielen.
Whuber

Antworten:


3

Zunächst möchte ich sagen, dass beide Grafiken einen klaren Beweis dafür liefern, dass ein Deckeneffekt vorliegt. Ich würde versuchen, diesen Effekt zu messen und nicht nur visuell, indem ich dies beobachte, solange ein nicht trivialer Teil der Beobachtungen in der Nähe der oberen Grenze des Bereichs des Instruments liegt. In der Regel besteht ein Deckeneffekt immer, solange es einen nicht unbedeutenden Teil der Testteilnehmer gibt, die die maximale Punktzahl für den Test erreichen.

Allerdings hat die Technologie der Testanalyse einen langen Weg zurückgelegt, seit wir die Scores auf einem Instrument basierend auf dem korrekten Score direkt interpretieren mussten. Wir können nun die Item-Response-Theorie verwenden, um die Item-Parameter einzelner Items zu schätzen und diese Items zu verwenden, um die Fähigkeiten des Subjekts zu identifizieren. Es kann natürlich noch Deckeneffekte auf einen Test geben, wenn wir den Test zu einfach machen. Aufgrund der Potenziale der Item-Response-Theorie sollten wir jedoch in der Lage sein, zumindest einige wenige Items mit ausreichendem Schwierigkeitsgrad in das Instrument einzubauen, um zu verhindern, dass nur ein unbedeutender Teil der Bevölkerung die Obergrenze erreicht.

Danke für die Frage. Es ist sehr interessant!


2

Ich denke, eine grobe und vorbereitete Methode wäre es, die Varianz zu messen, wenn der Maßstab zunimmt. Wenn dies eine Verringerung zeigt, ist dies ein Hinweis auf einen Deckeneffekt, und wenn dies nicht der Fall ist, liegt kein Deckeneffekt vor. Sie könnten eine Homogenität der Varianzdarstellung erstellen. Der Levene-Test könnte nützlich sein, um festzustellen, ob die Varianz an verschiedenen Punkten der Skala unterschiedlich ist.


2
danke für die idee. Ich werde es versuchen, aber ich erwarte, dass die Varianz in diesem Fall natürlich mit dem Alter abnimmt.
Höchstbetrag

Sowohl diese Antwort als auch Ihr Kommentar scheinen zwei unterschiedliche Konzepte zu verwechseln. Die Skala Varianz würde die Dispersion der wiederholten unabhängigen Messungen eines Subjektes widerspiegelt; es soll nicht vom Subjekt abhängen, sondern möglicherweise mit der mittleren Reaktion des Subjekts variieren. Die Varianz, auf die Sie und diese Antwort verweisen, ist die Varianz der Regressionsreste. Obwohl sie verwandt sind, sind sie nicht dasselbe.
whuber

@whuber danke für den Hinweis. Übrigens sehen Sie immer noch keine Anzeichen für einen Deckeneffekt in der Aktualisierungsgrafik und den Informationen? Ich bin ziemlich überrascht, dass diese Frage angesichts der zahlreichen Fragen und Antworten zur Datenanalyse mit vorhandenen Deckeneffekten so gut wie kein Interesse gefunden hat.
Decke

Hallo. Wenn Sie die Varianz zwischen den Motiven mit zunehmender Skalierung und nicht innerhalb der Motive zeichnen, können Sie dann keine Aussage über die Deckeneffekte treffen? - Können Sie den Levene-Test weiterhin verwenden, um auf signifikante Änderungen der Varianz zu testen, wenn der Maßstab zunimmt? oder ist dies nur zum Testen innerhalb von Subjektänderungen in der Varianz gedacht? Sollten wir einen anderen Begriff verwenden, um die Variation der Punktzahlen verschiedener Personen zu beschreiben, wenn die Skala ansteigt, als "Skalenvarianz", z. B. "Varianz von Residuen"? Kann der Test von Levene verwendet werden, um zu zeigen, dass die "Varianz der Residuen" über die Skala
hinweg

0

Das entscheidende Problem bei der Entscheidung, ob eine Häufung um den höchsten oder den niedrigsten Punkt auf einen Decken- / Bodeneffekt zurückzuführen ist, besteht darin, ob die Werte der Fälle tatsächlich den Wert "darstellen". Wenn Decken- / Bodeneffekte auftreten, sind einige der Fälle trotz der Annahme des Maximal- oder Minimalwerts tatsächlich höher / niedriger als der Maximal- oder Minimalwert (stellen Sie sich vor, ein Erwachsener und ein Kind beenden beide einen äußerst einfachen Mathe-Test, der angeblich zu messen ist seine mathematischen Fähigkeiten und beide erzielten 100%). Hier werden die Daten zensiert.

Ein anderes Szenario ist auch möglich, wenn wir begrenzte Skalen verwenden, z. B. eine Likert-ähnliche Skala, die inhärente Ober- und Untergrenzen aufweist. Es ist durchaus möglich, dass diejenigen, die die höchste Punktzahl erzielt haben, diese Punktzahl tatsächlich wert sind, und es gibt keine Unterschiede (wie im obigen mathematischen Beispiel) zwischen allen, die die höchste Punktzahl erzielt haben. In einem solchen Fall werden die Daten an den Grenzen abgeschnitten und nicht zensiert.

Ausgehend von den obigen Überlegungen sollte man ein Verfahren entwickeln, um einen bestimmten Datensatz mit Datenabschneidung und Datenzensierung auszustatten. Wenn das Zensierungsmodell am besten zu den Daten passt, kann man meines Erachtens den Schluss ziehen, dass ein Decken- / Bodeneffekt vorliegt.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.