Ich habe einige interessante Daten über die populärsten gestreamten Musikkünstler, die nach Orten in ungefähr 200 Kongressbezirke unterteilt sind. Ich möchte sehen, ob es möglich ist, eine Person nach ihren musikalischen Vorlieben zu befragen und festzustellen, ob sie "wie ein Demokrat zuhört" oder "wie ein Republikaner zuhört". (Natürlich ist das unbeschwert, aber die Daten enthalten echte Entropie!)
Ich habe Daten zu etwa 100 Künstlern sowie den durchschnittlichen Prozentsatz an Stimmen für Republikaner und Demokraten in jedem Bezirk in den letzten drei Wahlzyklen. Also habe ich für jeden Künstler eine Korrelation durchgeführt, um zu sehen, welche Künstler als Funktion des Stimmenanteils für Demokraten am meisten überproportional angehört wurden. Diese Korrelationen reichen von etwa -0,3 bis 0,3 für einen bestimmten Künstler, wobei viele in der Mitte wenig oder gar keine Vorhersagekraft haben.
Ich habe zwei Fragen: Erstens ist die Gesamtzahl der Streams pro Distrikt sehr unterschiedlich. Im Moment korreliere ich den Prozentsatz aller Streams pro Distrikt, die beispielsweise Beyonce angehören, mit dem Prozentsatz der Stimmen, die für Demokraten abgegeben wurden. Die Gesamtzahl der Ströme in einem Distrikt könnte jedoch in Millionenhöhe liegen, während der andere in den niedrigen 100.000 liegt. Muss ich die Korrelation irgendwie gewichten, um dies zu berücksichtigen?
Zweitens bin ich neugierig, wie diese Korrelationen zu einer zusammengesetzten Einschätzung der Benutzerpolitik kombiniert werden können. Angenommen, ich nehme die 20 Künstler mit den höchsten absoluten Korrelationswerten (positiv und negativ), zehn in jede Richtung, und befrage einen Benutzer, wie sehr er oder sie jeden Künstler mag. Ich habe also für jeden Künstler eine positive oder negative Stimme sowie die Korrelation zur Politik für alle 20 Werte. Gibt es eine Standardmethode, um diese Korrelationen in einer einzigen Schätzung zu kombinieren? (Ich denke etwa an das berühmte Dialekt-Quiz der NYTimes , bei dem die regionalen Wahrscheinlichkeiten für 25 Fragen in einer Heatmap zusammengefasst wurden. In diesem Fall brauche ich jedoch nur einen einzigen Wert dafür, wie demokratisch oder republikanisch der Musikgeschmack ist.
Vielen Dank!