Ich arbeite an einer Software, die anhand mehrerer GPS-basierter Berichte reale Standorte (z. B. Geschwindigkeitskameras) ermitteln soll . Ein Benutzer fährt, wenn er einen Ort meldet, daher sind die Meldungen sehr ungenau. Um dieses Problem zu lösen, muss ich Berichte über denselben Standort gruppieren und einen Durchschnitt berechnen.
Meine Frage ist, wie man diese Berichte gruppiert . Ich habe über Expectation-Maximation-Algorithmen und k-means Clustering gelesen , aber wie ich verstanden habe, müsste ich die Anzahl der realen Standorte im Voraus bestimmen.
Gibt es andere Algorithmen, die nicht die genaue Anzahl der realen Positionen benötigen, sondern stattdessen einige Randbedingungen verwenden (z. B. minimale Entfernung)?
Ein Bericht enthält Längen- , Breitengrad- und Genauigkeitsangaben (in Metern). Es gibt keinen Namen oder etwas anderes, mit dem Duplikate identifiziert werden könnten.
Ein weiteres Hindernis könnte sein, dass es häufig vorkommt, dass es nur einen Bericht für einen Standort in der realen Welt gibt. Das macht es schwierig, Ausreißer von guten Daten zu unterscheiden.