Ich versuche, die Idee der gegenseitigen Information auf die Merkmalsauswahl anzuwenden, wie in diesen Vorlesungsunterlagen (auf Seite 5) beschrieben.
Meine Plattform ist Matlab. Ein Problem, das ich bei der Berechnung gegenseitiger Informationen aus empirischen Daten finde, ist, dass die Anzahl immer nach oben verzerrt ist. Ich habe ungefähr 3 ~ 4 verschiedene Dateien gefunden, um den MI in Matlab Central zu berechnen, und alle geben große Zahlen (wie> 0,4) an, wenn ich unabhängige Zufallsvariablen eingebe.
Ich bin kein Experte, aber das Problem scheint zu sein, dass, wenn Sie einfach die Gelenk- und Randdichte zur Berechnung des MI verwenden, eine Verzerrung in den Prozess eingeführt wird, da der MI per Definition positiv ist. Hat jemand praktische Ratschläge, wie man gegenseitige Informationen genau einschätzt?
Eine verwandte Frage ist in der Praxis, wie Menschen MI tatsächlich zur Auswahl von Funktionen verwenden. Es ist mir nicht klar, wie ich einen Schwellenwert finden soll, da MI theoretisch unbegrenzt ist. Oder ordnen die Leute die Features einfach nach MI und nehmen die Top-K-Features?