Kürzlich hatte ich einige Analysen über die Auswirkungen von Reputation auf Upvotes durchgeführt (siehe Blog-Post ) und anschließend einige Fragen zu möglicherweise aufschlussreicheren (oder angemesseneren) Analysen und Grafiken.
Also ein paar Fragen (und zögern Sie nicht, auf irgendjemanden zu antworten und die anderen zu ignorieren):
In seiner aktuellen Inkarnation habe ich die Postnummer nicht zentriert gemeint. Ich denke, dies führt zu einem falschen Auftreten einer negativen Korrelation im Streudiagramm, da es mehr Posts am unteren Ende der Postanzahl gibt (Sie sehen, dass dies nicht im Jon Skeet-Panel geschieht, sondern nur bei den sterblichen Benutzern Panel). Ist es nicht angebracht, die Post-Nummer nicht mittig zu zentrieren (da ich die Punktzahl pro Benutzer-Durchschnittspunktzahl zentriert habe)?
Aus den Diagrammen sollte ersichtlich sein, dass die Punktzahl stark nach rechts geneigt ist (und die mittlere Zentrierung dies nicht geändert hat). Beim Anpassen einer Regressionsgeraden passte ich sowohl lineare Modelle als auch ein Modell unter Verwendung des Huber-White-Sandwichs an, dessen Fehler (über
rlm
im MASS R-Paket ) keinen Unterschied bei den Steigungsschätzungen machten. Hätte ich eine Transformation der Daten anstelle einer robusten Regression in Betracht ziehen sollen? Beachten Sie, dass bei jeder Transformation die Möglichkeit von 0 und negativen Werten berücksichtigt werden muss. Oder hätte ich anstelle von OLS ein anderes Modell für die Zähldaten verwenden sollen?Ich glaube, dass die letzten beiden Grafiken im Allgemeinen verbessert werden könnten (und auch mit verbesserten Modellierungsstrategien zusammenhängen). Meiner Meinung nach würde ich vermuten, dass Reputationseffekte schon sehr früh in der Geschichte eines Plakats erkannt werden (ich nehme an, wenn dies zutrifft, werden diese möglicherweise überdacht) Beiträge "anstelle von" Ruf nach Gesamtpunktzahl "Effekte). Wie kann ich eine Grafik erstellen, um zu demonstrieren, ob dies wahr ist, während das Überzeichnen berücksichtigt wird? Ich dachte, ein guter Weg, dies zu demonstrieren, wäre, ein Modell der Form zu erstellen.
wobei das ist (die gleiche wie in den aktuellen Streudiagrammen ist), X 1 die ist , und die Z 1 ⋯ Z k sind Dummy - Variablen einen beliebigen Bereich von Postzahlen (zum Beispiel repräsentieren Z 1 equals , wenn die Postnummer ist , Z 2 ist gleich, wenn die Post-Nummer usw. ist). β 0 und ϵ sind der Hauptabschnitt bzw. der Fehlerterm. Dann würde ich einfach das geschätzte γ untersuchenscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
Steigungen, um zu bestimmen, ob Reputationseffekte zu Beginn eines Posterverlaufs aufgetreten sind (oder grafisch angezeigt werden). Ist das ein vernünftiger (und angemessener) Ansatz?
Es scheint beliebt zu sein, Streudiagramme wie diese mit einer Art nichtparametrischer Glättungslinie zu versehen (z. B. Löss oder Splines), aber meine Versuche mit Splines ergaben keine aufschlussreichen Ergebnisse (alle Hinweise auf positive Effekte waren zu Beginn der Postergeschichte gering und verhalten auf die Anzahl der Keile, die ich eingeschlossen habe). Ist mein Modellierungsansatz vernünftiger als Splines, da ich die Hypothese habe, dass die Effekte früh auftreten?
Beachten Sie auch, dass ich all diese Daten bereits ausgegraben habe. Es gibt jedoch noch viele andere Communities, die untersucht werden müssen (und einige wie Superuser und Serverfault haben ähnlich große Beispiele, aus denen Sie ziehen können) Analyse, dass ich eine Hold-out-Stichprobe verwende, um eine Beziehung zu untersuchen.