Ist die durchschnittliche Bewertung von Amazon irreführend?

49

Wenn ich es richtig verstehe, sind Buchbewertungen auf einer Skala von 1 bis 5 Likert-Bewertungen. Das heißt, eine 3 für mich muss nicht unbedingt eine 3 für einen anderen sein. Es ist eine Ordnungsskala IMO. Man sollte die Ordnungsskalen nicht wirklich mitteln, kann aber definitiv den Modus, den Median und die Perzentile verwenden.

So ist es ‚okay‘ zu beugen die Regeln , da der Großteil der Bevölkerung versteht Mittel als die oben genannten Statistiken? Obwohl die Forschungsgemeinschaft es nachdrücklich ablehnt, Durchschnittswerte von Likert-basierten Daten zu verwenden, ist es in Ordnung, dies mit der Masse zu tun (praktisch)? Ist es in diesem Fall sogar irreführend, den Durchschnitt zu nehmen?

Scheint unwahrscheinlich, dass ein Unternehmen wie Amazon an grundlegenden Statistiken herumfummelt, aber wenn nicht, was fehle ich dann hier? Können wir behaupten, dass die Ordnungsskala eine geeignete Annäherung an die Ordnungszahl ist, um die Mittelwertbildung zu rechtfertigen? Aus welchen Gründen?

mean ordinal-data likert

— PhD
quelle

3

Wenn die 3 für Sie nicht mit der 3 für eine andere Person identisch ist, haben Sie nicht einmal eine Skala: Sie haben eine Sammlung unvergleichlicher Maße und es gibt wenig Sinnvolles, was Sie tun können, um sie zusammenzufassen. Was eine Skala Ordnungs macht , ist , dass (a) Werte können verglichen werden, so dass Ihr 3 und meine 3 bedeuten die gleiche Sache, aber (b) numerische Unterschiede von Werten bedeutungslos sind abgesehen von ihren Zeichen, so dass (sagen wir) zwei 3s, ein 4 und eine 2 oder eine 5 und eine 1 können in eine beliebige Reihenfolge gebracht werden, obwohl numerisch jedes Bewertungspaar den gleichen Mittelwert und Median aufweist.

— Whuber

1

@whuber - aber stimmt es nicht, dass 2 Personen auf einer Skala von 1 bis 9 nicht die gleiche Meinung zu den Zahlen haben? Eine 6 für mich kann in der Tat keine 6 für andere sein, es sei denn, sie haben eine vordefinierte Skala, nach der sie sich richten?

— PhD

1

Ich habe kürzlich eine Rezension auf amazon gelesen, in der es heißt: "Ein brillantes Produkt kann nichts dafür. Ich würde niemals 5 Sterne vergeben, habe also 4 vergeben." Wenn dies nicht den Mittelwert verzerrt, weiß ich nicht, dass dies der Fall ist

— Matt Wilko

2

@ Wilko Sie sprechen von Meinungsverschiedenheiten, nicht von Größenunterschieden. Selbst wenn eine Waage sehr sorgfältig kalibriert wird, wie zum Beispiel beim Turnen oder Eiskunstlauf oder der internationalen Skala für die Bewertung der Schwierigkeit von Stromschnellen auf Flüssen, und selbst wenn Experten für die Verwendung dieser Skala geschult sind, gibt es immer noch Variationen. Das wird normalerweise nicht als Beweis interpretiert, die Skala ist subjektiv: Sie wird als Variation unter den Richtern interpretiert.

— Whuber

1

Sorry, das ist keine wirkliche Antwort, aber leider konnte ich die "Kommentar" -Funktion nicht finden. Kürzlich habe ich begonnen, meine Masterarbeit über die wichtigsten Elemente von Kundenrezensionen zu schreiben. In Anbetracht der folgenden Umstände begann ich auch an der Bedeutung des 5-Sterne-Bewertungssystems von Amazon zu zweifeln. - Anzahl misstrauischer Bewertungen - Auswirkungen der Einstufungsabweichung und der J-Kurven ( buildingreputation.com/writings/2009

— derPio

42

Vorteile der Verwendung des Mittels zur Zusammenfassung der zentralen Tendenz einer 5-Punkte-Bewertung

Wie @gung bereits sagte, gibt es meiner Meinung nach oft gute Gründe, den Mittelwert eines Fünf-Punkte-Punktes als Index für die zentrale Tendenz zu betrachten. Ich habe diese Gründe hier bereits umrissen .

Umschreiben:

Der Mittelwert ist einfach zu berechnen

Der Mittelwert ist intuitiv und gut verstanden

Der Mittelwert ist eine einzelne Zahl

Andere Indizes ergeben oft eine ähnliche Rangordnung der Objekte

Warum ist der Mittelwert gut für Amazon

Denken Sie über die Ziele von Amazon nach, wenn Sie den Mittelwert melden. Sie könnten darauf abzielen

Geben Sie eine intuitive und verständliche Bewertung für einen Artikel an
Gewährleistung der Akzeptanz des Bewertungssystems durch den Benutzer
Stellen Sie sicher, dass die Nutzer verstehen, was das Rating bedeutet, damit sie es angemessen nutzen können, um Kaufentscheidungen zu treffen

Amazon liefert eine Art gerundeten Mittelwert, Häufigkeitswerte für jede Bewertungsoption und die Stichprobengröße (dh Anzahl der Bewertungen). Vermutlich reichen diese Informationen für die meisten Menschen aus, um sowohl die allgemeine Stimmung in Bezug auf den Artikel als auch das Vertrauen in eine solche Bewertung einzuschätzen (dh 4,5 mit 20 Bewertungen sind wahrscheinlicher als 4,5 mit 2 Bewertungen; ein Artikel mit 10 5 Bewertungen) (Sternebewertungen und eine 1-Sternebewertung ohne Kommentare sind möglicherweise immer noch ein guter Artikel).

Sie könnten den Mittelwert sogar als demokratische Option ansehen. Viele Wahlen werden basierend darauf entschieden, welcher Kandidat auf einer Zwei-Punkte-Skala den höchsten Mittelwert erzielt. Wenn Sie dem Argument folgen, dass jede Person, die eine Bewertung abgibt, eine Bewertung erhält, können Sie den Mittelwert als eine Form ansehen, die die Stimmen jeder Person gleich gewichtet.

Sind Unterschiede in der Skalennutzung wirklich ein Problem?

In der psychologischen Literatur ist eine Vielzahl von Bewertungsverzerrungen bekannt (siehe Saal et al. 1980), wie z. B. zentrale Tendenzverzerrung, Kronzeugenverzerrung, Strengeverzerrung. Außerdem sind einige Bewerter willkürlicher und andere zuverlässiger. Einige mögen sogar systematisch lügen, wenn sie falsch positive oder falsch negative Bewertungen abgeben. Dies führt zu verschiedenen Fehlerarten, wenn versucht wird, die tatsächliche Durchschnittsbewertung für einen Artikel zu berechnen.

Wenn Sie jedoch eine Zufallsstichprobe aus der Bevölkerung ziehen würden, würden sich solche Verzerrungen aufheben, und bei einer ausreichenden Stichprobengröße der Bewerter würden Sie immer noch den wahren Mittelwert erhalten.

Natürlich erhalten Sie bei Amazon keine Zufallsstichprobe, und es besteht das Risiko, dass die bestimmte Gruppe von Bewertern, die Sie für einen Artikel erhalten, systematisch voreingenommen ist, um milder oder strenger zu sein und so weiter. Ich denke jedoch, dass Amazon-Nutzer es zu schätzen wissen, dass von Nutzern eingereichte Bewertungen aus einer unvollständigen Stichprobe stammen. Ich denke auch, dass es ziemlich wahrscheinlich ist, dass bei einer angemessenen Stichprobengröße in vielen Fällen die Mehrheit der Response-Bias-Unterschiede verschwindet.

Mögliche Fortschritte über den Durchschnitt hinaus

In Bezug auf die Verbesserung der Genauigkeit der Bewertung würde ich das allgemeine Konzept des Mittelwerts nicht in Frage stellen, sondern ich denke, dass es andere Möglichkeiten gibt, die tatsächliche Durchschnittsbewertung der Grundgesamtheit für einen Artikel zu schätzen (dh die Durchschnittsbewertung, die erhalten würde) wurden eine große repräsentative Stichprobe gebeten, den Artikel zu bewerten).

Gewichtsbewerter basierend auf ihrer Vertrauenswürdigkeit
Verwenden Sie ein Bayes'sches Bewertungssystem, das die Durchschnittsbewertung als gewichtete Summe aus der Durchschnittsbewertung für alle Artikel und dem Durchschnitt des jeweiligen Artikels schätzt, und erhöhen Sie die Gewichtung für den jeweiligen Artikel, wenn die Anzahl der Bewertungen zunimmt
Passen Sie die Informationen eines Bewerters basierend auf einer allgemeinen Bewertungstendenz für verschiedene Elemente an (z. B. wäre eine 5 von jemandem, der normalerweise 3 Punkte gibt, mehr wert als jemand, der normalerweise 4 Punkte gibt).

Wenn die Genauigkeit der Bewertungen das Hauptziel von Amazon war, sollte es meiner Meinung nach darum gehen, die Anzahl der Bewertungen pro Artikel zu erhöhen und einige der oben genannten Strategien zu übernehmen. Solche Ansätze könnten besonders relevant sein, wenn Sie "Best-of" -Rankings erstellen. Für die bescheidene Bewertung auf der Seite kann es jedoch durchaus sein, dass der Stichprobenmittelwert die Ziele der Einfachheit und Transparenz besser erfüllt.

Verweise

Saal, FE, Downey, RG & Lahey, MA (1980). Bewertung der Bewertungen: Bewertung der psychometrischen Qualität von Bewertungsdaten. Psychological Bulletin, 88, 413.

— Jeromy Anglim
quelle

1

+1. Ich denke, das geht über Ihre vorherige Antwort hinaus / erweitert sie auf sehr nette Weise. Besonders gut gefällt mir der Abschnitt „Warum der Mittelwert gut für Amazon ist“, in dem klarer aufgezählt wird, worauf ich in meinem letzten Satz abzielte. "Unterschiedliche Verwendung einer Skala" ist ebenfalls sehr aufschlussreich. Ich würde mich über einen Hinweis auf eine Rezension dieser Literatur freuen, wenn Sie eine gute Literatur kennen. Ich stelle jedoch fest, dass der letzte Abschnitt mit dem zweiten etwas angespannt ist.

— gung - Reinstate Monica

2

Vielen Dank. Ich habe einen Verweis auf die Literatur zum Rating Bias hinzugefügt und am Ende etwas hinzugefügt, das versucht, die beiden Perspektiven in Einklang zu bringen.

— Jeromy Anglim

2

+1 @JeromyAnglim - eine gründliche Perspektive, die die verschiedenen Aspekte des Problems beleuchtet. Ein dickes Lob!

— PhD

+1, tolle Antwort. Obwohl ich einen Satz leicht irreführend fand. Wenn Sie jedoch eine Zufallsstichprobe aus der Bevölkerung ziehen würden, würden sich solche Verzerrungen aufheben, und bei einer ausreichenden Stichprobengröße von Bewertern würden Sie immer noch den wahren Mittelwert erhalten. - Ich denke nicht, dass dies auf alle Vorurteile zutrifft, selbst wenn Sie eine zufällige Stichprobe der Bevölkerung hatten.

— Michael Bishop

1

@MichaelBishop Danke, ich stimme zu, dass meine Sprache dort etwas nachlässig war. Ich denke, es hängt davon ab, was mit dem "wahren Mittelwert" gemeint ist. Ich kann sehen, wie wenn Sie Fälscher in der Bevölkerung haben, dies den unangepassten Bevölkerungsmittelwert von einem hypothetischen "wahren Mittelwert" abbringen könnte. Ich dachte eher, dass systematische Abweichungen von Personen, die für alle Elemente gelten, aufgehoben würden, um eine unbefangene Rangfolge der Elemente basierend auf dem resultierenden Mittelwert zu ermöglichen.

— Jeromy Anglim

15

Um hier etwas technisch zu sein, diese Bewertungen sind eigentlich keine Likert- Skala . Sie sind nur ordinale Bewertungen. Nachdem Sie das gesagt haben, ist Ihr Standpunkt im Wesentlichen richtig. Ich denke jedoch oft, dass zu viel von diesem Thema gemacht wird. Eine Sache zu beachten ist , dass es in der Regel versteht sich, dass der Mittelwert einer Anzahl von Ordnungs Elemente können etwa Intervall, und somit , wenn es viele Bewertungen der Mittelwert wird eine vernünftige Darstellung. Ich fand diese Antwort von @JeromyAnglim ausgezeichnet (wirklich, die Frage und alle dazugehörigen Antworten sind lesenswert). Eine theoretischere Behandlung finden Sie hier. Aus einem anderen Grund mag ich Amazon, aber ich sehe keinen Grund, statistische Raffinesse von ihnen zu erwarten, insbesondere in Bezug auf die grundlegende Gestaltung der Website - der Punkt ist die Benutzerfreundlichkeit durch die Verbraucher, nicht um Professoren zu beeindrucken.

— gung - Wiedereinsetzung von Monica
quelle

2

Amazon war einer der Marktführer in der (Internet-) Technologieindustrie für experimentelles Design für Online-Werbung und Website-Nutzung. Sie können sicher sein, dass sie tatsächlich in ihren statistischen Ansätzen ziemlich ausgefeilt sind . :-) Ihr Punkt ist gut. Um es einen kleinen Schritt weiter zu bringen, können Sie sich vorstellen, dass Amazon etwas "Anspruchsvolleres" unternahm und jemand sie anhand eines einfachen Durchschnitts überprüfte. Dabei stellte er fest, dass einige Artikel "höher" als ihr Durchschnitt und andere "niedriger" eingestuft wurden und einen erhöhten Aufregung und Verlassen von Amazon, um zu versuchen, ihre "versteckten Vorurteile" in Bezug auf Produkte zu erklären?

— Kardinal

1

Andere Dienste, z. B. Netflix, vermeiden dieses Problem, indem sie nur die "Zusammenfassungs" -Daten bereitstellen. :)

— Kardinal

@ Cardinal, das ist sehr interessant, ich wusste das nicht über Amazon.

— gung - Wiedereinsetzung von Monica

15

Jeder hat eine gute Meinung dazu. Ich glaube nicht, dass ich noch viel mehr hinzufügen kann. Ich werde dies jedoch posten :

— DrG4dget
quelle

7

Ich denke, die Comic-Höhepunkte zeigen, dass manche Leute die Qualität eines Gegenstandes schlecht beurteilen, und wenn man den Durchschnitt über viele solcher Leute bildet, erhält man einen schlechten Durchschnitt. Generell deutet die Kenntnis der Masse darauf hin, dass Durchschnittswerte recht gut abschneiden, wenn zumindest ein angemessener Teil der Menschen über Kenntnisse verfügt. Die Gewichtung von Ratings nach Vertrauenswürdigkeit könnte auch eine Strategie zur Überwindung von Problemen sein.

— Jeromy Anglim

1

Die andere Möglichkeit besteht darin, Empfehlungen im Netflix-Stil zu verwenden, indem Sie Ihre Bewertung mit den Bewertungen anderer Benutzer vergleichen und dann den Durchschnitt der von Benutzern mit ähnlichen Auswahlmöglichkeiten wie Ihnen angebotenen Bewertungen bilden.

— Rahul

1

@ Rahul Das ist ein guter Punkt. In meiner Antwort gehe ich manchmal davon aus, dass Bewertungen größtenteils wahr sind: Punktzahl + Fehler, auch wenn der Fehler strukturiert ist. In Bereichen, in denen persönliche Präferenzen Teil der Definition von Qualität sind, ist dies jedoch nicht immer sinnvoll.

— Jeromy Anglim

Das gefällt mir, und deshalb versuche ich (als Verbraucher), die Bewertungen zu lesen und nicht nur die Anzahl der Sterne zu prüfen. Aber ich fand es ironisch, dass in diesem Fall die "ausgefeilteren" Methoden von Median, Modus und Perzentilen alle ein schlechteres Ergebnis liefern als der Durchschnitt ;-)

— Darren Cook

3

Nach meiner Erfahrung korreliert der Mittelwert der Ratingskala-Daten häufig am besten mit der Ebene der realen Metriken, die wir mit der Ratingskala zu verknüpfen versuchen. Wir haben viele lineare Beziehungen gefunden, und der Durchschnitt ist daher eine der besseren Möglichkeiten, die Daten zusammenzufassen. Wie Jeromy betonte, werden die meisten Methoden zur Analyse der zentralen Tendenz einer Ratingskala jedoch die meiste Zeit zu ähnlichen Ergebnissen führen (Rangfolgen usw.).

Ich vermute auch, dass Amazon nicht alles ist, was mit der wissenschaftlichen Gültigkeit auf die eine oder andere Weise zu tun hat. Letztendlich ist es das Ziel von Amazon, die Menschen dazu zu bringen, mehr auf Amazon.com einzukaufen, und die Art und Weise, wie Bewertungen dazu beitragen, wird wahrscheinlich nicht von der verwendeten Ein-Zahlen-Zusammenfassung abhängen. Gute Produkte werden belohnt, wirklich schlechte Produkte bestraft und nervöse Käufer haben die Möglichkeit, Vor- und Nachteile genauer zu prüfen.

— Jonathan
quelle

2

Die Bewertungen von Amazon sind irreführend, da Unternehmen das System spielen. Wenn Kunden im Gegenzug für 5-Sterne-Bewertungen Rabatte und Gratiswaren angeboten werden, ist die "Statistik" darüber, was die Bewertungszahl ist oder bedeutet, umstritten.

— John
quelle

1

Haben Sie Daten darüber, wie oft solche Dinge passieren?

— Michael Bishop

1

Sie machen einen guten Punkt. Der Mittelwert der Ordnungszahlen ist etwas irreführend. Jede Zusammenfassung mehrerer Rankings würde unter der Tatsache leiden, dass meine subjektive 3 tatsächlich Ihrer 4 entspricht. Die Kombination verschiedener Einzelbewertungen ist also wahrscheinlich das größte Problem. Das Interpretieren des Durchschnitts von 3 und 4 als 3,5 ist bei weitem nicht so ungeheuerlich.

— Michael Chernick
quelle