Ich möchte verschiedene Modelle evaluieren, die auf monatlicher Ebene Verhaltensvorhersagen liefern. Die Daten sind ausgewogen und 100.000 und T = 12. Das Ergebnis ist die Teilnahme an einem Konzert in einem bestimmten Monat, sodass es für ~ 80% der Menschen in jedem Monat Null ist, aber es gibt einen langen rechten Schwanz schwerer Benutzer. Die Vorhersagen, die ich gemacht habe, scheinen die Zählung des Ergebnisses nicht zu respektieren: Bruchkonzerte sind weit verbreitet.
Ich weiß nichts über die Modelle. I beobachten nur 6 verschiedene Blackbox-Vorhersagen y 1 , . . . , Y 6 für jede Person pro Monat. Ich habe ein zusätzliches Jahr an Daten, die die Modellbauer nicht für die Schätzung hatten (obwohl die Konzertbesucher gleich bleiben), und ich möchte messen, wo jeder gut abschneidet (in Bezug auf Genauigkeit und Präzision). Zum Beispiel, sagt ein Modell gut für häufige Konzertbesucher voraus, scheitert aber für die Sofakartoffeln? Ist die Vorhersage für Januar besser als die Vorhersage für Dezember? Alternativ wäre es schön zu wissen, dass die Vorhersagen es mir ermöglichen, Menschen in Bezug auf die tatsächlichen Werte korrekt einzustufen, auch wenn der genauen Größe nicht vertraut werden kann.
Mein erster Gedanke war, eine Regression mit festen Effekten von tatsächlichen auf vorhergesagten und zeitlichen Dummies durchzuführen und die RMSEs oder für jedes Modell zu betrachten. Dies beantwortet jedoch nicht die Frage, wo jedes Modell gut abschneidet oder ob die Unterschiede signifikant sind (es sei denn, ich starte den RMSE). Die Verteilung des Ergebnisses beunruhigt mich auch bei diesem Ansatz.
Meine zweite Idee war, das Ergebnis in 0, 1-3 und 3+ zu unterteilen und die Verwirrungsmatrix zu berechnen, aber dies ignoriert die Zeitdimension, es sei denn, ich mache 12 davon. Es ist auch ziemlich grob.
Mir sind die Stata-Befehle concord
von TJ Steichen und NJ Cox bekannt - die die by()
Option haben, aber dafür müssten die Daten auf jährliche Summen reduziert werden. Dies berechnet unter anderem den Konkordanzkorrelationsindex von Lin mit Konfidenzintervallen. CCC reicht von -1 bis 1, mit perfekter Übereinstimmung bei 1.
Es gibt auch Harrells (berechnet
von R. Newson), das die Option hat, aber ich bin nicht sicher, ob ich damit mit den Paneldaten umgehen kann. Dies gibt Ihnen Konfidenzintervalle. Harrells c ist die Verallgemeinerung des Bereichs unter einer ROC-Kurve (AUC) für ein kontinuierliches Ergebnis. Es ist der Anteil aller Paare, der so geordnet werden kann, dass das Subjekt mit der höheren Vorhersage tatsächlich das höhere Ergebnis hat. Also ist c = 0,5 für zufällige Vorhersagen c = 1 für ein perfekt unterscheidendes Modell. Siehe Harrells Buch , S.493somersd
cluster
Wie würden Sie dieses Problem angehen? Würden Sie vorschlagen, Statistiken wie MAPE zu berechnen, die in Prognosen häufig vorkommen?
Bisher nützliche Dinge:
- Folien auf einer Version mit wiederholter Messung von Lins Konkordanzkorrelationskoeffizient