So etwas wie eine gewichtete Korrelation?

Ich habe einige interessante Daten über die populärsten gestreamten Musikkünstler, die nach Orten in ungefähr 200 Kongressbezirke unterteilt sind. Ich möchte sehen, ob es möglich ist, eine Person nach ihren musikalischen Vorlieben zu befragen und festzustellen, ob sie "wie ein Demokrat zuhört" oder "wie ein Republikaner zuhört". (Natürlich ist das unbeschwert, aber die Daten enthalten echte Entropie!)

Ich habe Daten zu etwa 100 Künstlern sowie den durchschnittlichen Prozentsatz an Stimmen für Republikaner und Demokraten in jedem Bezirk in den letzten drei Wahlzyklen. Also habe ich für jeden Künstler eine Korrelation durchgeführt, um zu sehen, welche Künstler als Funktion des Stimmenanteils für Demokraten am meisten überproportional angehört wurden. Diese Korrelationen reichen von etwa -0,3 bis 0,3 für einen bestimmten Künstler, wobei viele in der Mitte wenig oder gar keine Vorhersagekraft haben.

Ich habe zwei Fragen: Erstens ist die Gesamtzahl der Streams pro Distrikt sehr unterschiedlich. Im Moment korreliere ich den Prozentsatz aller Streams pro Distrikt, die beispielsweise Beyonce angehören, mit dem Prozentsatz der Stimmen, die für Demokraten abgegeben wurden. Die Gesamtzahl der Ströme in einem Distrikt könnte jedoch in Millionenhöhe liegen, während der andere in den niedrigen 100.000 liegt. Muss ich die Korrelation irgendwie gewichten, um dies zu berücksichtigen?

Zweitens bin ich neugierig, wie diese Korrelationen zu einer zusammengesetzten Einschätzung der Benutzerpolitik kombiniert werden können. Angenommen, ich nehme die 20 Künstler mit den höchsten absoluten Korrelationswerten (positiv und negativ), zehn in jede Richtung, und befrage einen Benutzer, wie sehr er oder sie jeden Künstler mag. Ich habe also für jeden Künstler eine positive oder negative Stimme sowie die Korrelation zur Politik für alle 20 Werte. Gibt es eine Standardmethode, um diese Korrelationen in einer einzigen Schätzung zu kombinieren? (Ich denke etwa an das berühmte Dialekt-Quiz der NYTimes , bei dem die regionalen Wahrscheinlichkeiten für 25 Fragen in einer Heatmap zusammengefasst wurden. In diesem Fall brauche ich jedoch nur einen einzigen Wert dafür, wie demokratisch oder republikanisch der Musikgeschmack ist.

Vielen Dank!

— Chris Wilson
quelle

Formel für die gewichtete Pearson - Korrelation kann leicht gefunden werden , die im Internet , Stackoverflow und Wikipedia und ist in mehreren R Paketen zB implementiert Psych oder Gewichten und in Python statsmodels Paket. Es wird wie eine reguläre Korrelation berechnet, jedoch mit gewichteten Mitteln .

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

gewichtete Abweichungen ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

und gewichtete Kovarianz

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

Mit all dem können Sie leicht die gewichtete Korrelation berechnen

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

Was Ihre zweite Frage betrifft, so wie ich es verstehe, würden Sie Daten über Korrelationen zwischen politischer Orientierung und Präferenz für die zwanzig binären Antworten von Künstlern und Benutzern über ihre Präferenz haben, und Sie möchten eine Art aggregiertes Maß dafür erhalten.

$z$

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Wenn Tangenten von Korrelationskoeffizienten verwendet werden, werden die Extremwerte "abgeflacht" (siehe unten), sodass sie einen geringeren Einfluss auf die endgültige Schätzung haben und ihre Verteilung näher an der Normalverteilung liegt. Dieses Verfahren wurde auch von Bushman und Wang (1995) sowie Corey, Dunlap und Burke (1998) beschrieben.

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Aber...

Denken Sie nicht, dass all dies ein Overkill für etwas ist, das im Grunde genommen ein Problem der multiplen Regression ist? Stattdessen können Sie die gesamte Gewichtung und Mittelung einfach mit gewichteter multipler Regression durchführen (linear oder logistisch, je nachdem, ob Sie eine Binärpräferenz oder eine Präferenzabweichung in eine der beiden Richtungen vorhersagen), wobei die Gewichtung auf der Größe von Teilproben basiert. Sie würden die musikalische Präferenz für jeden Künstler als Prädiktor verwenden. Am Ende werden Sie die Vorlieben des Benutzers verwenden, um Vorhersagen zu treffen. Dieser Ansatz ist einfacher und statistisch eleganter. Es gilt auch relativ $A$ $B$

Bushman, BJ & Wang, MC (1995). Eine Prozedur zum Kombinieren von Probenkorrelationskoeffizienten und Stimmenzählern, um eine Schätzung und ein Konfidenzintervall für den Populationskorrelationskoeffizienten zu erhalten. Psychological Bulletin, 117 (3), 530.

Corey, DM, Dunlap, WP und Burke, MJ (1998). Mittelungskorrelationen: Erwartete Werte und Bias in kombinierten Pearson- und Fisher-z-Transformationen, The Journal of General Psychology, 125 (3), 245-261.

— Tim
quelle

Vielen Dank! Das hilft enorm. Wird Kopfgeld gewähren, wenn es später heute verfügbar ist.

— Chris Wilson

@Tim Wie wird die gewichtete Kovarianz berechnet, wenn

x_{i}

$x_i$ und

y_{i}

$y_i$ unterschiedliche Zuverlässigkeitsgewichte haben?

— Kagaratsch

@Kagaratsch Ich habe noch nie eine solche Formel gesehen. Dies ist eine schöne Frage.

— Tim