Wie Karl Broman in seiner Antwort sagte, wäre ein Bayes-Ansatz wahrscheinlich viel besser als die Verwendung von Konfidenzintervallen.
Das Problem mit den Konfidenzintervallen
Warum funktioniert die Verwendung von Konfidenzintervallen möglicherweise nicht gut? Ein Grund dafür ist, dass Ihr Konfidenzintervall sehr breit ist, wenn Sie nicht viele Bewertungen für einen Artikel haben, sodass die Untergrenze des Konfidenzintervalls klein ist. So landen Artikel ohne viele Bewertungen am Ende Ihrer Liste.
Intuitiv möchten Sie jedoch wahrscheinlich, dass sich Artikel ohne viele Bewertungen in der Nähe des durchschnittlichen Artikels befinden. Sie möchten also Ihre geschätzte Bewertung des Artikels in Richtung der mittleren Bewertung über alle Artikel bewegen (dh Sie möchten Ihre geschätzte Bewertung auf einen früheren Wert verschieben ). . Genau das leistet ein Bayes'scher Ansatz.
Bayesianischer Ansatz I: Normalverteilung über Ratings
Eine Möglichkeit, die geschätzte Bewertung auf eine Prioritätsstufe zu verschieben, besteht, wie in Karls Antwort, darin, eine Schätzung der Form :w ≤ R + ( 1 - w ) ≤ C
- R ist der Mittelwert über den Bewertungen für die Artikel.
- C ist der Mittelwert über alle Elemente (oder was auch immer zuvor Sie Ihre Bewertung schrumpfen möchten).
- Beachten Sie, dass die Formel nur eine gewichtete Kombination von und .CRC
- Rvmw = vv + m ist das zugewiesene Gewicht , wobei die Anzahl der Bewertungen für das Bier und eine Art konstanter "Schwellen" -Parameter ist.Rvm
- Beachten Sie, dass wenn sehr groß ist, dh wenn wir viele Bewertungen für das aktuelle Element haben, sehr nahe bei 1 liegt, unsere geschätzte Bewertung also sehr nahe bei und wir dem vorherigen wenig Aufmerksamkeit schenken . Wenn jedoch klein ist, liegt sehr nahe bei 0, so dass die geschätzte Bewertung dem vorherigen viel Gewicht beimisst .w R C v w CvwRCvwC
Diese Schätzung kann in der Tat als hintere Schätzung der mittleren Bewertung des Artikels nach Bayes interpretiert werden, wenn die einzelnen Bewertungen aus einer Normalverteilung stammen , die um diesen Mittelwert zentriert ist.
Unter der Annahme, dass Ratings von einer Normalverteilung stammen, gibt es jedoch zwei Probleme:
- Eine Normalverteilung ist kontinuierlich , aber die Bewertungen sind diskret .
- Bewertungen für einen Artikel folgen nicht unbedingt einer unimodalen Gaußschen Form. Zum Beispiel ist Ihr Artikel möglicherweise sehr polarisierend, daher geben die Leute ihm entweder eine sehr hohe oder eine sehr niedrige Bewertung.
Bayesianischer Ansatz II: Multinomiale Verteilung über Ratings
Anstatt eine Normalverteilung für Ratings anzunehmen, nehmen wir eine multinomiale Verteilung an. Das heißt, bei einem bestimmten Gegenstand gibt es eine Wahrscheinlichkeit dass ein zufälliger Benutzer ihm 1 Stern gibt, eine Wahrscheinlichkeit dass ein zufälliger Benutzer ihm 2 Sterne gibt, und so weiter.p 2p1p2
Natürlich haben wir keine Ahnung, wie hoch diese Wahrscheinlichkeiten sind. Da wir immer mehr Bewertungen für diesen Artikel erhalten, können wir davon ausgehen, dass in der Nähe von , wobei die Anzahl der Benutzer ist, die ihm 1 Stern gegeben haben, und die Gesamtzahl der Benutzer ist, die bewertet haben das Einzelteil, aber wenn wir zuerst anfangen, haben wir nichts. Daher setzen wir diesen Wahrscheinlichkeiten ein Dirichlet vor .n 1p1n1nn1n D i r ( α1, … , Αk)
Was hat dieses Dirichlet vor? Wir können uns jeden Parameter als "virtuelle Zählung" der , mit der eine virtuelle Person den Gegenstand mit Sternen bewertet hat. Wenn beispielsweise , und alle anderen gleich 0 sind, können wir uns dies so vorstellen, dass zwei virtuelle Personen den Gegenstand 1 Stern und eine virtuelle Person den Gegenstand 2 gegeben haben Sterne. Bevor wir also überhaupt tatsächliche Benutzer erhalten, können wir diese virtuelle Verteilung verwenden, um eine Schätzung der Bewertung des Elements bereitzustellen.αichichα1= 2α2= 1αich
[Eine Möglichkeit, die Parameter , besteht darin, gleich dem Gesamtanteil der Stimmen von Sternen zu setzen. (Beachten Sie, dass die Parameter nicht unbedingt ganze Zahlen sind.)]αichαichichαich
Sobald die tatsächlichen Bewertungen eingegangen sind, addieren Sie einfach ihre Anzahl zu der virtuellen Anzahl Ihres Dirichlet-Vorgängers. Wenn Sie die Bewertung Ihres Artikels schätzen möchten, geben Sie einfach den Mittelwert über alle Bewertungen des Artikels an (sowohl die virtuellen Bewertungen als auch die tatsächlichen Bewertungen).