Quantifizierung der Ähnlichkeit zwischen zwei Datensätzen


12

Zusammenfassung : Der Versuch, die beste Methode zu finden, fasst die Ähnlichkeit zwischen zwei ausgerichteten Datensätzen mit einem einzigen Wert zusammen.

Details :

Meine Frage lässt sich am besten mit einem Diagramm erklären. Die folgenden Grafiken zeigen zwei verschiedene Datensätze mit den Werten nfund nr. Die Punkte entlang der x-Achse stellen dar, wo Messungen vorgenommen wurden, und die Werte auf der y-Achse sind die resultierenden Messwerte.

Für jedes Diagramm möchte ich eine einzelne Zahl, um die Ähnlichkeit nfund die nrWerte an jedem Messpunkt zusammenzufassen. In diesem Beispiel ist es visuell offensichtlich, dass die Ergebnisse in den ersten Diagrammen weniger ähnlich sind als die im zweiten Diagramm. Aber ich habe viele andere Daten, bei denen der Unterschied weniger offensichtlich ist. Daher wäre es hilfreich, diese quantitativ bewerten zu können.

Ich dachte, es könnte Standardtechniken geben, die normalerweise verwendet werden. Die Suche nach statistischer Ähnlichkeit hat zu vielen unterschiedlichen Ergebnissen geführt, aber ich bin mir nicht sicher, was ich am besten auswählen soll oder ob sich die Dinge, die ich bereit habe, auf mein Problem anwenden lassen. Daher dachte ich, diese Frage könnte es wert sein, hier gestellt zu werden, falls es eine einfache Antwort gibt.

Bildbeschreibung hier eingeben


1
Vielleicht möchten Sie sich dieses Papier ansehen, in dem eine Fülle von Maßnahmen aufgelistet sind. ( users.uom.gr/~kouiruki/sung.pdf ) Wenn der Link nicht funktioniert, gibt es im International Journal of Mathematical Models and Methods die so genannte "Comprehensive Survey on Distance / Similarity Measures Between Probability Density Functions" von Sung-Hyuk Cha in Applied Science, die eine Vielzahl von Ähnlichkeitsmaßen überprüft.
Arie64

Mit Dynamic Time Warping wird die Ähnlichkeit zwischen zwei Zeitreihen gemessen. Diese Technik kann die Aufgabe hier erledigen. Überprüfen Sie diesen Link: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Antworten:


6

Fläche zwischen 2 Kurven kann den Unterschied ergeben. Daher ist die Summe (nr-nf) (Summe aller Differenzen) eine Annäherung an die Fläche zwischen zwei Kurven. Wenn Sie es relativ machen möchten, können Sie sum (nr-nf) / sum (nf) verwenden. Diese geben Ihnen einen einzelnen Wert, der die Ähnlichkeit zwischen 2 Kurven für jedes Diagramm angibt.

Bearbeiten: Die obige Methode zur Summierung von Differenzen ist auch dann nützlich, wenn es sich um getrennte Punkte oder Beobachtungen und nicht um verbundene Linien oder Kurven handelt. In diesem Fall kann der Mittelwert der Differenzen jedoch auch ein Indikator sein und ist möglicherweise besser, da er den berücksichtigt Anzahl der Beobachtungen.


1
Ich werde es versuchen und sehen, wie es funktioniert. Ich hoffe immer noch, dass ich es mit einer formaleren Technik in Verbindung bringen kann. Ich habe über die euklidische Distanz gelesen und es scheint, als ob sie der Technik hier ziemlich ähnlich ist. Auch als zusätzliche Anmerkung, obwohl mein Graph Verbindungslinien hat, interessieren mich nur die einzelnen Punkte. Ich vergleiche nicht wirklich Kurven, nur die gemessenen Werte. Ich weiß nicht, ob das in meiner Frage klar war.
Gabriel Southern

Es sollte funktionieren, auch wenn die Punkte nicht verbunden sind.
Rnso

1

Sie müssen mehr definieren, was Sie unter Ähnlichkeit verstehen. Ist die Größe wichtig? Oder nur formen?

Wenn es nur auf die Form ankommt, sollten Sie beide Zeitreihen mit ihrem Maximalwert normalisieren (also beide von 0 bis 1).

Wenn Sie nach einer linearen Korrelation suchen, funktioniert eine einfache Pearson-Korrelation - die im Wesentlichen die Kovarianz misst.

Es gibt zum Beispiel andere Techniken, die eine Linie oder ein Polynom an die Zeitreihe anpassen (im Wesentlichen glätten) und dann die glatten Polynome vergleichen.

Wenn Sie nach periodischer Ähnlichkeit suchen (dh die Zeitreihe hat eine bestimmte sinusförmige Komponente oder Saisonalität), ziehen Sie in Betracht, zuerst eine Zeitreihenzerlegung in den Trend und die Jahreszeitenkomponenten zu verwenden. Oder verwenden Sie FFT, um die Daten im Frequenzbereich zu vergleichen.

Das ist alles, was ich weiß, ohne genauer zu definieren, was "ähnlich" sein soll. Ich hoffe es hilft.


0

Sie können (nr-nf) für jeden Messpunkt verwenden. Je kleiner die Zahl (absoluter Wert), desto ähnlicher ist der Wert. Nicht gerade der wissenschaftlichste Ansatz, bitte vergib mir, ich habe keine wirkliche formale Ausbildung in diesem Bereich. Wenn Sie nur nach einer numerischen Darstellung des Visuellen suchen, sollte dies der Fall sein.


1
Danke für Ihren Vorschlag. Ich habe auch darüber nachgedacht, aber das Problem ist, dass es eher nach dem absoluten Unterschied als nach dem relativen Unterschied gewichtet wird. In dem Beispiel, das ich aufgenommen habe, hatten die ähnlicheren Datensätze auch kleinere absolute Werte, aber wenn die Situation umgekehrt wäre, könnten Sie mit dieser Technik eine falsche Interpretation erhalten. Ich muss die relative Ähnlichkeit / Differenz eher als eine absolute Differenz zusammenfassen.
Gabriel Southern

Würde (nr-nf) / nf funktionieren? Das würde dich relativieren. Ich bin wirklich daran interessiert, die wirkliche Antwort zu sehen, da ich selbst mit der gleichen Situation zu tun habe.
Mike G

Wenn sie alle vergleichbar sind, geht es bei der Tatsache, dass Ihre ähnlichen Werte im Allgemeinen niedriger sind, nicht um relative Werte, sondern um die Interpretation der Ähnlichkeit. Wenn die Werte in der zweiten Grafik zwischen 101 und 104 liegen würden, würde dies die Interpretation ihrer Ähnlichkeit verändern? Wenn ja, müssen Sie das erklären. Weitere Einzelheiten darüber, was genau die y-Variable ist, wären erforderlich.
John

@ John, das ist ein guter Punkt. Ich denke, ich muss mehr darüber nachdenken. Die Werte für y sind Beschleunigungswerte für einen Benchmark, und ich versuche, die Ähnlichkeit zwischen verschiedenen Konfigurationen zu vergleichen. Ich schätze, der Vorschlag in dieser Antwort könnte funktionieren. Vielleicht versuche ich es nur, um zu sehen, wie die Zahlen aussehen. Ich würde es immer noch vorziehen, eine statistische Technik zu verwenden, die formeller akzeptiert wird (falls es eine für mein Problem gibt).
Gabriel Southern
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.