Kontext: Ich entwickle ein System, das klinische Daten analysiert, um unplausible Daten herauszufiltern, bei denen es sich möglicherweise um Tippfehler handelt.
Was ich bisher gemacht habe:
Um die Plausibilität zu quantifizieren, habe ich bisher versucht, die Daten zu normalisieren und dann einen Plausibilitätswert für Punkt p basierend auf seiner Entfernung zu bekannten Datenpunkten in Satz D (= dem Trainingssatz) zu berechnen:
Mit dieser Quantifizierung kann ich dann einen Schwellenwert auswählen, der die plausiblen Daten von den unplausiblen Daten trennt. Ich benutze Python / Numpy.
Meine Probleme:
- Dieser Algorithmus kann keine unabhängigen Dimensionen erkennen. Im Idealfall könnte ich alles, was ich über den Datensatz weiß, in den Algorithmus einfügen und ihn selbst herausfinden lassen, dass die Dimension X die Plausibilität des Datensatzes nicht beeinflusst.
- Der Algorithmus funktioniert nicht wirklich für diskrete Werte wie Boolesche Werte oder ausgewählte Eingaben. Sie könnten auf kontinuierliche Werte abgebildet werden, aber es ist nicht intuitiv, dass Auswahl 1 näher an Auswahl 2 liegt als an Auswahl 3.
Frage:
Welche Art von Algorithmen sollte ich für diese Aufgabe untersuchen? Es scheint eine Menge Optionen zu geben, einschließlich auf dem nächsten Nachbarn basierender, auf Clustern basierender und statistischer Ansätze. Außerdem habe ich Probleme, Artikel zu finden, die sich mit der Erkennung von Anomalien dieser Komplexität befassen.
Jeder Rat wird sehr geschätzt.
[Bearbeiten] Beispiel:
Angenommen, die Daten bestehen aus der Größe einer Person, dem Gewicht einer Person und dem Zeitstempel - es handelt sich also um 3D-Daten. Gewicht und Größe sind korreliert, aber der Zeitstempel ist völlig unabhängig. Wenn ich nur die euklidischen Abstände betrachte, müsste ich einen kleinen Schwellenwert wählen, der zu den meisten meiner Kreuzvalidierungsdaten passt. Im Idealfall würde der Algorithmus die Zeitstempeldimension einfach ignorieren, da es irrelevant ist, zu bestimmen, ob ein Datensatz plausibel ist, da der Zeitstempel in keiner Weise mit den anderen Dimensionen korreliert. Jeder Zeitstempel ist plausibel.
Andererseits könnte man Beispiele finden, bei denen der Zeitstempel eine Rolle spielt. Zum Beispiel könnte es sein, dass der Wert Y für Merkmal X plausibel ist, wenn er vor einem bestimmten Datum gemessen wird, jedoch nicht nach einem bestimmten Datum.