Ich versuche, ein Data-Mining-Paket für StackExchange-Sites zusammenzustellen, und insbesondere stecke ich fest, um die "interessantesten" Fragen zu ermitteln. Ich würde gerne die Fragenbewertung verwenden, aber die Verzerrung aufgrund der Anzahl der Ansichten entfernen, aber ich weiß nicht, wie ich konsequent damit umgehen soll.
In der idealen Welt könnte ich die Fragen sortieren, indem ich berechne , wobei die Gesamtzahl der Stimmen und die Anzahl der Aufrufe ist. Schließlich würde es den Prozentsatz der Personen messen, die die Frage positiv bewertet haben, abzüglich des Prozentsatzes der Personen, die die Frage negativ bewertet haben.
Leider ist das Abstimmungsmuster viel komplizierter. Stimmen tendieren zu einem gewissen "Plateau" und dies hat den Effekt, dass wild populäre Fragen drastisch unterschätzt werden. In der Praxis würde eine Frage mit einer Ansicht und einer positiven Bewertung mit Sicherheit höher bewertet und sortiert werden als jede andere Frage mit 10.000 Ansichten, jedoch weniger als 10.000 Stimmen.
Ich verwende derzeit als empirische Formel, möchte aber genau sein. Wie kann ich dieses Problem mit mathematischer Strenge angehen?
Um auf einige der Kommentare einzugehen, werde ich versuchen, das Problem besser wiederzugeben:
Angenommen, ich habe eine Frage mit insgesamt Stimmen und Ansichten. Ich würde gerne abschätzen können, welche Stimmenanzahl am wahrscheinlichsten ist, wenn die Aufrufe erreichen .
Auf diese Weise konnte ich einfach einen Nominalwert für auswählen und alle Fragen gemäß der erwarteten Summe .
Ich habe zwei Abfragen im SO-Datendump erstellt, um den Effekt, von dem ich spreche, besser darzustellen:
Durchschnittliche Ansichten nach Punktzahl
Ergebnis:
Durchschnittsbewertung nach Ansichten (100-Ansichten-Eimer)
Ergebnis:
Ergebnisse, nicht sicher, ob das Richtige besser ist: ( in Blau, in Rot)