Ich habe drei Funktionen, mit denen ich ein Klassifizierungsproblem lösen kann. Ursprünglich erzeugten diese Features boolesche Werte, sodass ich ihre Redundanz bewerten konnte, indem ich mir ansah, wie stark sich die Sätze positiver und negativer Klassifikationen überschneiden. Jetzt habe ich die Funktionen erweitert, um stattdessen echte Werte (Scores) zu erzeugen, und ich möchte ihre Redundanz erneut analysieren, aber ich bin völlig ratlos, wie das geht. Kann mir jemand einen Hinweis oder eine Idee geben, wie ich das anstellen soll?
Ich weiß, dass diese Frage sehr vage ist, weil ich die Statistik nicht sehr gut verstehe. Wenn Sie also keine Antwort für mich haben, haben Sie vielleicht einige Fragen, die mir helfen können, mich selbst besser zu verstehen.
Bearbeiten: Ich stöbere gerade in Wikipedia zu diesem Thema. Ich habe das Gefühl, dass ich einen Korrelationskoeffizienten haben möchte, bin mir aber immer noch nicht sicher, ob dies der richtige Ansatz ist und welcher der vielen verfügbaren Koeffizienten angemessen ist.
Bearbeiten 2: Im booleschen Fall habe ich zuerst für jedes Feature den Satz von Beispielen erstellt, für die es wahr war. Dann war die Korrelation zwischen zwei Merkmalen die Größe des Schnittpunkts dieser Mengen über die Größe der Vereinigung dieser Mengen. Wenn dieser Wert 1 ist, sind sie vollständig redundant, weil immer gleich. Wenn es 0 ist, sind sie niemals gleich.