Überprüfen Sie RTEFC ("Echtzeit-Exponentialfilter-Clustering") oder RTMAC ("Echtzeit-Moving-Average-Clustering"), effiziente, einfache Echtzeitvarianten von K-Mitteln, die für die Echtzeitverwendung geeignet sind, wenn Prototyp-Clustering geeignet ist. Sie gruppieren Sequenzen Siehe https://gregstanleyandassociates.com/whitepapers/BDAC/Clustering/clustering.htm
und das zugehörige Material zur Darstellung multivariater Zeitreihen als ein größerer Vektor in jedem Zeitschritt (die Darstellung für "BDAC") mit einer Verschiebung Zeitfenster. Bildlich,
Diese wurden entwickelt, um gleichzeitig sowohl das Filtern von Rauschen als auch das Clustering in Echtzeit durchzuführen, um unterschiedliche Bedingungen zu erkennen und zu verfolgen. RTMAC begrenzt das Speicherwachstum, indem die neuesten Beobachtungen in der Nähe eines bestimmten Clusters beibehalten werden. RTEFC behält nur die Schwerpunkte von einem Zeitschritt zum nächsten bei, was für viele Anwendungen ausreicht. Im Bild sieht RTEFC folgendermaßen aus:
Dawg bat darum, dies mit HDBSCAN zu vergleichen, insbesondere mit der Funktion approximate_predict (). Der Hauptunterschied besteht darin, dass HDBSCAN immer noch davon ausgeht, dass gelegentlich von den ursprünglichen Datenpunkten umgeschult wird, was eine teure Operation ist. Die HDBSCAN-Funktion approximate_predict () wird verwendet, um eine schnelle Clusterzuweisung für neue Daten ohne Umschulung zu erhalten. Im RTEFC-Fall gibt es nie eine große Umschulungsberechnung, da die ursprünglichen Datenpunkte nicht gespeichert werden. Stattdessen werden nur die Cluster-Center gespeichert. Jeder neue Datenpunkt aktualisiert nur ein Clustercenter (entweder bei Bedarf ein neues erstellen und innerhalb der angegebenen Obergrenze für die Anzahl der Cluster oder ein vorheriges Center aktualisieren). Der Rechenaufwand bei jedem Schritt ist gering und vorhersehbar.
Die Bilder weisen einige Ähnlichkeiten auf, außer dass das HDBSCAN-Bild nicht den Stern markiert, der ein neu berechnetes Cluster-Center für einen neuen Datenpunkt in der Nähe eines vorhandenen Clusters anzeigt, und das HDBSCAN-Bild den neuen Cluster-Fall oder den Fall der erzwungenen Aktualisierung als Ausreißer ablehnt.
RTEFC wird optional auch geändert, wenn die Kausalität a priori bekannt ist (wenn Systeme Ein- und Ausgänge definiert haben). Dieselben Systemeingaben (und Anfangsbedingungen für dynamische Systeme) sollten dieselben Systemausgaben erzeugen. Sie sind nicht auf Lärm oder Systemänderungen zurückzuführen. In diesem Fall wird jede für das Clustering verwendete Abstandsmetrik so geändert, dass nur die Nähe der Systemeingaben und Anfangsbedingungen berücksichtigt wird. Aufgrund der linearen Kombination von wiederholten Fällen wird das Rauschen teilweise aufgehoben und es erfolgt eine langsame Anpassung an Systemänderungen. Die Schwerpunkte sind aufgrund der Rauschreduzierung tatsächlich bessere Darstellungen des typischen Systemverhaltens als ein bestimmter Datenpunkt.
Ein weiterer Unterschied besteht darin, dass für RTEFC nur der Kernalgorithmus entwickelt wurde. Es ist einfach genug, mit nur wenigen Codezeilen zu implementieren, das ist schnell und mit vorhersehbarer maximaler Rechenzeit bei jedem Schritt. Dies unterscheidet sich von einer gesamten Anlage mit vielen Optionen. Diese Art von Dingen sind vernünftige Erweiterungen. Die Ablehnung von Ausreißern kann beispielsweise einfach erfordern, dass nach einiger Zeit Punkte außerhalb des definierten Abstands zu einem vorhandenen Clusterzentrum ignoriert werden, anstatt zum Erstellen neuer Cluster oder zum Aktualisieren des nächsten Clusters verwendet zu werden.
Ziel von RTEFC ist es, eine Reihe repräsentativer Punkte zu erhalten, die das mögliche Verhalten eines beobachteten Systems definieren, sich an Systemänderungen im Laufe der Zeit anpassen und optional die Auswirkung von Rauschen in wiederholten Fällen mit bekannter Kausalität reduzieren. Es geht nicht darum, alle Originaldaten zu verwalten, von denen einige veraltet sein können, wenn sich das beobachtete System im Laufe der Zeit ändert. Dies minimiert den Speicherbedarf sowie die Rechenzeit. Dieser Satz von Merkmalen (Cluster-Zentren als repräsentative Punkte sind alles, was benötigt wird, Anpassung über die Zeit, vorhersehbare und geringe Rechenzeit) passt nicht für alle Anwendungen. Dies könnte angewendet werden, um Online-Trainingsdatensätze für chargenorientiertes Clustering, Näherungsmodelle für neuronale Netzfunktionen oder ein anderes Schema für die Analyse oder Modellbildung zu verwalten. Beispielanwendungen könnten Fehlererkennung / -diagnose umfassen; Prozesssteuerung; oder an anderen Stellen, an denen Modelle aus den repräsentativen Punkten oder dem Verhalten erstellt werden können, das gerade zwischen diesen Punkten interpoliert wurde. Die beobachteten Systeme wären solche, die hauptsächlich durch eine Reihe kontinuierlicher Variablen beschrieben werden, die andernfalls eine Modellierung mit algebraischen Gleichungen und / oder Zeitreihenmodellen (einschließlich Differenzgleichungen / Differentialgleichungen) sowie Ungleichheitsbeschränkungen erfordern könnten.