Ich habe den folgenden Pandas-Datenrahmen Top15
:
Ich erstelle eine Spalte, in der die Anzahl der zitierfähigen Dokumente pro Person geschätzt wird:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Ich möchte den Zusammenhang zwischen der Anzahl zitierfähiger Dokumente pro Kopf und der Energieversorgung pro Kopf kennen. Also benutze ich die .corr()
Methode (Pearson-Korrelation):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Ich möchte eine einzelne Nummer zurückgeben, aber das Ergebnis ist:
.corr
direkt auf Ihren Datenrahmen anwenden, werden alle paarweisen Korrelationen zurückgegeben. Deshalb beobachten Sie dann 1s in der Diagonale Ihrer Matrix (jede Spalte ist perfekt mit sich selbst korreliert). Siehe meine Bearbeitung unten.