t-SNE
Methode erfordert nicht das Entfernen von Duplikaten. Die Tatsache, dass es sich um eine Standardfunktion Rtsne
handelt, impliziert nicht deren Anforderung. Dies ist nützlich für die kurzfristige Ereignisüberwachung. Für die Charakterisierung langfristiger Trends und / oder Muster mit großen Datenmengen sehe ich wenig Nutzen. Die Rtsne
Standardeinstellung kann eher zur Charakterisierung von Ereignissen im Zeitbereich geeignet sein, ohne dass Studien im Fourierbereich durchgeführt werden müssen.
Angenommen, Sie haben Punkte im Zeitbereich. Der Duplikat-Algorithmus verursacht eine erhebliche Anzahl von Fehlalarmen, da die Duplikatprüfung hauptsächlich auf dem Zeitbereichssignal basiert. Der Fourierraum kann zeigen, dass diejenigen Ereignisse, die vom Algorithmusduplikat berücksichtigt werden, nicht erforderlich sind.
Meine Beobachtung ist also, dass der Algorithmus nach doppelten Punkten im Zeitbereich gierig ist, was für mich nicht nützlich ist, wenn ich Langzeitsignale, Langzeittrends und Langzeitmuster betrachte. Die Tatsache, dass der Punkt im Zeitbereich doppelt vorhanden ist, bedeutet nicht, dass er auch im Fourierbereich doppelt vorhanden ist. Ich denke, es wird eher ein Zufall sein, wenn es sich bei den realen Anwendungen um ein Duplikat in einem Zeitbereich handelt. Das Ausschalten der Funktion sollte also in Ordnung sein. Die Schätzung, wie viele der Punkte in beiden Bereichen tatsächlich doppelt vorhanden sind, ist in der Fallstudie spezifisch. Ich erhalte signifikant bessere Deskriptoren für Ereignisse und / oder Phänomene, wenn ich Langzeitdatensätze ohne doppelte Überprüfung in vielen realen Anwendungen berücksichtige.
Ich denke, die Rtsne
Dokumentation ist nicht klar über den Fall, dass [ausschalten check_duplicates
und] keine Rechenleistung verschwenden . Es gibt wirklich andere Gründe, wie oben beschrieben, warum das ausgeschaltet werden check_duplicates
kann, wie dies auch durch einige andere Implementierungen des Verfahrens realisiert wird. Dies check_duplicates=TRUE
ist Rtsne
momentan standardmäßig eine persönliche Auswahl des Entwicklers. Ich würde gerne hören, ob es Gründe für die Umsetzung der Entscheidung gibt.