Ich habe eine große Menge von Merkmalsvektoren, die ich verwenden werde, um ein Binärklassifizierungsproblem anzugreifen (mit Scikit Learn in Python). Bevor ich mich mit Imputation beschäftige, möchte ich anhand der verbleibenden Teile der Daten feststellen, ob die fehlenden Daten "zufällig" oder nicht zufällig fehlen.
Was ist ein vernünftiger Weg, um diese Frage anzugehen?
Es stellt sich heraus, dass es eine bessere Frage ist, ob die Daten "völlig zufällig fehlen" oder nicht. Was ist ein vernünftiger Weg, um das zu tun?