Je nach Verwendungszweck gibt es viele Alternativen.
Eine übliche Methode ist die "Relative Percent Difference" (RPD), die in Laborqualitätskontrollverfahren verwendet wird. Obwohl Sie viele scheinbar unterschiedliche Formeln finden können, kommt es bei allen darauf an, die Differenz zweier Werte mit ihrer durchschnittlichen Größe zu vergleichen:
d1( x , y)=x−y(|x|+|y|)/2=2x−y|x|+|y|.
Dies ist ein vorzeichenbehafteter Ausdruck, der positiv ist, wenn y überschreitet, und negativ ist, wenn y x überschreitet . Sein Wert liegt immer zwischen - 2 und 2 . Durch die Verwendung von Absolutwerten im Nenner werden negative Zahlen auf vernünftige Weise behandelt. Die meisten Referenzen, die ich finden kann, wie das DEP Site Remediation-Programm in New Jersey, zur Bewertung der Datenqualität und zur Bewertung der Datenverwendbarkeit , verwenden den absoluten Wert von d 1, da sie nur an der Größe des relativen Fehlers interessiert sind.xyyx−22d1
Ein Wikipedia-Artikel zu Relative Change and Difference stellt dies fest
d∞(x,y)=|x−y|max(|x|,|y|)
wird häufig als relativer Toleranztest in numerischen Gleitkomma-Algorithmen verwendet. Im selben Artikel wird auch darauf hingewiesen, dass Formeln wie und d ∞ verallgemeinert werden könnend1d∞
df(x,y)=x−yf(x,y)
wobei die Funktion direkt von den Beträgen von x und y abhängt (normalerweise unter der Annahme, dass x und y positiv sind). Als Beispiele bieten sie ihr maximales, minimales und arithmetisches Mittel (mit und ohne die absoluten Werte von x und y selbst), aber man könnte auch andere Arten von Mittelwerten in Betracht ziehen, wie beispielsweise das geometrische Mittel √fxyxyxyDer harmonische Mittel2/(1/|x|+1/|y|)undLpMittel((|x|p+|y|p)/2)1 / p. (d1entsprichtp=1undd∞entspricht der Grenze alsp→|xy|−−−√2/(1/|x|+1/|y|)Lp((|x|p+|y|p)/2)1/pd1p=1d∞ .) Man könnte ein f basierend auf dem erwarteten statistischen Verhalten von x und y wählen. Beispielsweise wäre bei annähernd logarithmischen Normalverteilungen das geometrische Mittel eine attraktive Wahl für f, da es unter diesen Umständen ein aussagekräftiger Durchschnitt ist.p→∞fxyf
Die meisten dieser Formeln stoßen auf Schwierigkeiten, wenn der Nenner gleich Null ist. In vielen Anwendungen ist dies entweder nicht möglich oder es ist harmlos, die Differenz auf Null zu setzen, wenn .x=y=0
Es ist zu beachten, dass alle diese Definitionen eine fundamentale Invarianzeigenschaft gemeinsam haben: Unabhängig von der relativen Differenzfunktion ändert sich diese nicht, wenn die Argumente durch λ > 0 einheitlich neu skaliert werden :dλ>0
d(x,y)=d(λx,λy).
Es ist diese Eigenschaft, die es uns ermöglicht, als relativen Unterschied zu betrachten. So ist insbesondere eine nichtinvariante Funktion mög lichd
d(x,y)=? |x−y|1+|y|
einfach nicht qualifizieren. Welche Tugenden es auch haben mag, es drückt keinen relativen Unterschied aus.
Die Geschichte endet hier nicht. Wir könnten es sogar fruchtbar finden, die Auswirkungen der Invarianz ein wenig weiter zu treiben.
Die Menge aller geordneten Paare von reellen Zahlen wobei ( x , y ) als gleich ( λ x , λ y ) angesehen wird, ist die reelle projektive Linie R P 1 . R P 1 ist sowohl topologisch als auch algebraisch ein Kreis. Beliebig ( x , y ) ≠ ( 0 , 0 )(x,y)≠(0,0)(x,y)(λx,λy) RP1RP1(x,y)≠(0,0)bestimmt eine eindeutige Linie durch den Ursprung . Wenn x ≤ 0 ist, ist seine Steigung y / x ; ansonsten können wir seine Steigung als "unendlich" (und entweder negativ oder positiv) betrachten. Eine Nachbarschaft dieser vertikalen Linie besteht aus Linien mit extrem großen positiven oder extrem großen negativen Steigungen. Wir können alle diese Linien hinsichtlich ihres Winkels θ = arctan ( y / x ) mit - π / 2 < θ ≤ π / 2 parametrisieren(0,0)x≠0y/xθ=arctan(y/x)−π/2<θ≤π/2. Verbunden mit jedem solchen ist ein Punkt auf dem Kreis,θ
(ξ,η)=(cos(2θ),sin(2θ))=(x2−y2x2+y2,2xyx2+y2).
Jeder auf dem Kreis definierte Abstand kann daher verwendet werden, um eine relative Differenz zu definieren.
Betrachten Sie als Beispiel, wohin dies führen kann, den üblichen (euklidischen) Abstand auf dem Kreis, wobei der Abstand zwischen zwei Punkten der Größe des Winkels zwischen ihnen entspricht. Die relative Differenz am geringsten ist , wenn , entsprechend 2 θ = π / 2 (oder 2 θ = - 3 π / 2 , wenn x und y entgegengesetzte Vorzeichen haben). Unter diesem Gesichtspunkt wäre eine natürliche relative Differenz für positive Zahlen x und y der Abstand zu diesem Winkel:x=y2θ=π/22θ=−3π/2xyxy
dS(x,y)=∣∣2arctan(yx)−π/2∣∣.
Nach erster Ordnung ist dies der relative Abstand --aber es funktioniert auch wenn y = 0 ist . Außerdem explodiert es nicht, sondern ist (als vorzeichenbehafteter Abstand) auf einen Wert zwischen - π / 2 und π / 2 begrenzt , wie aus dieser Grafik hervorgeht:|x−y|/|y|y=0−π/2π/2
Dies weist darauf hin, wie flexibel die Auswahlmöglichkeiten bei der Auswahl einer Methode zur Messung relativer Unterschiede sind.