Haben wir ein Problem mit „mitleidigen Gegenstimmen“?


51

Ich weiß, das klingt vielleicht nicht nach einem Thema, aber hör mir zu.

Bei Stack Overflow und hier bekommen wir Stimmen für Beiträge, dies wird alles in tabellarischer Form gespeichert.

Z.B:

post id voter id vote type datetime
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... und so weiter. Voting Typ 2 ist eine positive, Voting Typ 3 eine negative Bewertung. Sie können eine anonymisierte Version dieser Daten unter http://data.stackexchange.com abfragen

Es wird davon ausgegangen, dass ein Beitrag mit einer höheren Wahrscheinlichkeit positiv bewertet wird, wenn er den Wert -1 oder niedriger erreicht. Dies kann einfach eine Bestätigungsverzerrung sein, oder es kann tatsächlich verwurzelt sein.

Wie würden wir diese Daten analysieren, um diese Hypothese zu bestätigen oder zu leugnen? Wie würden wir den Effekt dieser Verzerrung messen?


1
Können wir ein Beispiel für die Abfrage bekommen? Nicht jeder ist mit dem Schreiben von SQL-Anweisungen vertraut. Beispieldaten zu haben könnte die Leute dazu ermutigen, damit zu spielen. +1 für die Frage.
mpiktas

@ Jeff Votes sind anonymisiert. Sie können nur teilweise Informationen aus dem Daten-Dump abrufen. Es enthält alle Übergänge. Hier ein kurzes Beispiel. StackExchange.com/stackoverflow/q/101738 Vollständige anonymisierte Daten sind im öffentlichen Daten-Dump verfügbar
Sam Safran

Warum nur Upvotes? Wie interessant wäre sicherlich die Wahrscheinlichkeit von Aufwärts- oder Abwärtsstimmen um einen bestimmten Wert?
Bob Durrant

@ Bob, sicher zustimmen würden sie
Sam Saffron

1
Ich habe andere Arten von Sites gesehen, die Stimmen verschleierten (dh vor dem Anzeigen ein Rauschen hinzufügten) und manchmal sogar für einen kurzen Zeitraum die Auf- und Ab-Stimmen vollständig versteckten, um verschiedene Formen von Bandwagonning, Mitleidstimmen und anderen "sozialen" Stimmen zu vermeiden. Elemente der Abstimmung.
Glen_b

Antworten:


32

Sie können ein Multistate-Modell oder eine Markov-Kette verwenden (das msm-Paket in R ist eine Möglichkeit, diese anzupassen). Sie können dann prüfen, ob die Übergangswahrscheinlichkeit von -1 nach 0 größer ist als von 0 nach 1, 1 nach 2 usw. Sie können auch die durchschnittliche Zeit von -1 im Vergleich zu den anderen betrachten, um festzustellen, ob sie kürzer ist .


3
+1 gute Referenz. Es gibt einen Artikel im Journal of Statistical Software über das msm-Paket. Das Modell scheint für diese Art von Aufgabe ideal geeignet zu sein.
mpiktas

3
Die Markov-Kettenmodellidee sieht gut aus, aber die durchschnittliche Zeit bei -1 gibt nicht die ganze Geschichte wieder. Es ist möglich (und plausibel - denken Sie an schlechte Fragen), dass man mit größerer Wahrscheinlichkeit mit -1 abgewertet wird als anderswo.
Bob Durrant

Ich schätze, man sollte zuerst die Abstimmungsverläufe in Gruppen zusammenfassen - diejenigen, die (fast) nur positiv / negativ bewertet werden (sehr beliebte / sehr schlechte Fragen), und diejenigen, die strittiger sind. Dann können Sie Markov-Ketten auf den drei Klassen machen.
Jonas

13

Experiment durchführen. Stimmt jeden Tag die Hälfte der neuen Posts zu einer bestimmten Zeit nach dem Zufallsprinzip ab.


5
Cool, wir sollten eine signifikante Zunahme der "Kritiker" -Ausweise und wahrscheinlich eine Abnahme der Motivation für neue Benutzer feststellen :-) In diesem Fall ist es besser, mit hochrangigen Benutzern zu beginnen (mit der Gefahr, das Experiment zu beeinflussen!)
chl

14
Tatsächlich könnten wir es besser machen ... mit AB-Tests könnten wir die Hälfte der -1-gestimmten Frage auf der Site als 0 und die Hälfte als -1 anzeigen ... und herausfinden, ob eine der Gruppen wahrscheinlicher ist upvoted! Genial.
Sam Saffron

4
Die Testidee kontrolliert die Qualität der Posts, aber (1) diejenigen, die herabgestuft werden, sollten sich im Voraus bereit erklären, am Test teilzunehmen, und (2) nach kurzer Zeit sollten die Herabstufungen entfernt werden.
Radfahrer

2
+1 (und +1 zu allen Kommentaren auch hier): Ein kontrolliertes reversibles Experiment, das im Voraus allen Benutzern mitgeteilt wird, die betroffen sein könnten, und das mit ihrer Zustimmung durchgeführt wird, ist eine der stärksten Möglichkeiten, an diese Informationen zu gelangen.
whuber

13

Zusammenfassung meiner Antwort. Ich mag die Markov-Kettenmodellierung, aber sie vermisst den "zeitlichen" Aspekt. Wenn Sie sich hingegen auf den zeitlichen Aspekt konzentrieren (z. B. durchschnittliche Zeit beiDies ist eine Zwischenstufe aus dem Fall, in dem Sie nur die Übergangswahrscheinlichkeit schätzen und aus dem Fall, in dem Sie nur die in einem bestimmten Zustand verbrachte Zeit messen. Ich hoffe das hilft.1

(VDi)i1(Si)i1

Yt=Yt+Yt

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

Aber in Anlehnung an Ihre Frage nehmen Sie implizit an, dass Dies bedeutet, dass für eine deterministische Folge existiert so dass .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

Innerhalb dieses Formalismus kann Ihre Frage wie folgt umformuliert werden: "Es ist wahrscheinlich, dass " (oder zumindest ist der Unterschied größer als a gegebene Schwelle).μ1+μ0+>0

Unter dieser Annahme ist es einfach zu zeigen, dass ein [homogener Markov-Prozess] [3] auf wobei der Generator durch gegeben istYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Beantwortung der Frage (durch Vorschlagen eines Maximum-Likelihood-Schätzwerts für das statistische Problem) Nach dieser Neuformulierung wird das Problem gelöst, indem geschätzt und ein Test auf dessen Werten erstellt wird. Lassen Sie uns den Index ohne Verlust der Allgemeinheit reparieren und vergessen . Die Schätzung von (und ) kann vor der Beobachtung von erfolgen(μi+)iμ+μ

(T1,η1),,(Tp,ηp) wobei die Länge der der im Zustand verbrachten Perioden sind (dh aufeinanderfolgende Zeiten mit ) und ist wenn die Frage positiv bewertet wurde, wenn sie negativ bewertet wurde, und wenn sie der letzte Beobachtungszustand war.TjjthpiYt=iηj+110

Wenn Sie den Fall mit dem letzten Beobachtungsstand vergessen, stammen die erwähnten Paare aus einer Verteilung, die von und abhängt : Sie wird verteilt als (wobei Exp eine Zufallsvariable aus einer Exponentialverteilung ist und + oder -1 ist, je nachdem, wer das Maximum realisiert). Dann können Sie das folgende einfache Lemma verwenden (der Beweis ist einfach):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Lemma Wenn und dann ist und . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Dies impliziert, dass die Dichte von gegeben ist durch: wobei für die Dichtefunktion einer exponentiellen Zufallsvariablen ist mit Parameter . Aus diesem Ausdruck lässt sich leicht der Maximum-Likelihood-Schätzer von und :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
wobeiund.p + = | i : δ i = + 1 |p=|i:δi=1|p+=|i:δi=+1|

Kommentare für fortgeschrittenere Ansätze

Wenn Sie Fälle berücksichtigen möchten, bei denen der letzte beobachtete Zustand ist (sicherlich klüger, weil es bei oft Ihre letzte Punktzahl ist ...), müssen Sie die Neuzuordnung ein wenig ändern. Die entsprechende Zensur ist relativ klassisch ...- 1i1

Mögliche andere Ansätze können die Möglichkeit von

  • Eine Intensität haben, die mit der Zeit abnimmt
  • Eine Intensität, die mit der Zeit abnimmt, die seit der letzten Abstimmung vergangen ist (ich bevorzuge diese. In diesem Fall gibt es klassische Methoden, um zu modellieren, wie die Dichte abnimmt ...
  • Sie können annehmen, dass eine glatte Funktion von iμi+i
  • .... Sie können andere Ideen vorschlagen!
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.