RMSE zwischen zwei Rastern Schritt für Schritt

Kann jemand zeigen, wie man den RMSE (Root Mean Square Error) zwischen den folgenden zwei Rastern Schritt für Schritt berechnet und die Min- und Max-Werte der erhaltenen Ergebnisse diskutiert und wie man sie interpretiert.

 First raster (original, 2 by 2):
 1 2
 3 4

 Second raster (obtained, 2 by 2):
 2 2
 4 1

spatial-analyst spatial-statistics mathematics

— bis
quelle

Berechnung

Subtrahieren Sie ein Raster vom anderen. (Die Richtung der Subtraktion spielt keine Rolle.)

-1 0
-1 3
Quadrieren Sie das Ergebnis.

1 0
1 9
Durchschnitt der Werte.

(1 + 0 + 1 + 9)/(1 + 1 + 1 + 1) = 11/4.

(Ich habe dies auf suggestive Weise geschrieben, um zu zeigen, wie Zellen mit fehlenden Daten behandelt werden können, wenn Ihr GIS nicht über diese Funktion verfügt: Erstellen Sie ein Indikatorraster mit Einsen, in denen Sie Daten haben, und Nullen an anderer Stelle. Teilen Sie die Summe Ihres Rasters durch die Summe In Spatial Analyst können Sie die Summen als Schwerpunktsummen abrufen.)
Nimm die Quadratwurzel.

Sqrt(11/4) = 1.66

Deutung

Diese Zahl ist ein Maß für den typischen Unterschied von Zelle zu Zelle zwischen den beiden Gittern. Wenn die Gitter Hunderte von Werten oder mehr haben (wie die meisten), keine großen Extreme oder abweichenden Werte aufweisen und die durchschnittliche Differenz Null ist , lautet die Standard-Faustregel für die Interpretation der rmse:

Etwa 2/3 aller Zellen unterscheiden sich um weniger als die rmse.
Etwa 95% aller Zellen unterscheiden sich um weniger als das Doppelte der rmse.
Es wird ungewöhnlich sein, Unterschiede zu sehen, die mehr als dreimal so hoch sind wie die rmse.

In einem Raster beliebiger Größe ( z. B. einer Million Zellen) bedeutet "ungewöhnlich" immer noch mehrere tausend Zellen: etwa ein Bruchteil von einem Prozent von allen.

In dem Beispiel - das trivial klein ist - mit dem Wissen, dass es 4 Zellen gibt und die rmse 1,66 beträgt, würden wir denken, dass "ungefähr 2/3 - sagen wir 2 oder 3 - der Zellen innerhalb von 1,66 übereinstimmen. Wahrscheinlich alle von ihnen stimme innerhalb von 2 * 1,66 = 3,32 zu. " Der tatsächliche Stand der Dinge ist, wie wir aus dem Ergebnis von Schritt (1) sehen können, dass 3/4 der Zellen innerhalb von 1,66 übereinstimmen und alle tatsächlich innerhalb von 3 übereinstimmen.

Wenn die Gitter stark variieren und große Wertebereiche aufweisen, können Sie den Faustregeln misstrauen. Aus Chebyshevs Ungleichung wissen Sie das immer noch

Nicht mehr als 1/4 der Zellen unterscheiden sich um mehr als das Doppelte der rmse.
Nicht mehr als 1/9 der Zellen unterscheiden sich um mehr als das Dreifache der rmse.
Wählen Sie im Allgemeinen eine beliebige Zahl k gleich 2 oder höher. Nicht mehr als 1 / k ^ 2 der Zellen unterscheiden sich um mehr als das k- fache der rmse.

Dies ist eine universelle Regel, die für jedes Gitterpaar gilt, während die vorherige Faustregel davon ausgeht, dass die Verteilung der Zellunterschiede ohne viele extreme Ausreißer ungefähr "glockenförmig" ist.

Bearbeiten

Bei den vorhergehenden Interpretationen wird davon ausgegangen, dass Sie zwei Gitter vergleichen, die bis zum Messfehler dasselbe darstellen sollen, sodass ihre durchschnittliche Differenz Null ist (oder nahe genug daran liegt). Wenn der durchschnittliche Unterschied spürbar ist (im Vergleich zum rmse), sind diese Interpretationen falsch - aber es ist auch selten sinnvoll, den rmse zu verwenden. Stattdessen würde man (a) die durchschnittliche Differenz melden und (b) sein Quadrat nach Schritt (3) subtrahieren . Dies ergibt eher den mittleren quadratischen Rest als die mittlere quadratische Differenz. Seine Quadratwurzel ist die typische Größe der Variationen zwischen den beiden Gittern im Verhältnis zu ihrer durchschnittlichen Differenz . Mit dieser Einschränkung kann die Interpretation dieselben Faustregeln wie zuvor verwenden.

— whuber
quelle

@whuber: vielen dank !!! Gibt es ein Buch, das diesen Prozess ausführlich beschreibt? oder Papier? Als Referenz. Nochmals vielen Dank !!! Ich weiß es wirklich zu schätzen.

@whuber: Wie würde sich die Berechnung ändern, wenn wir die folgenden Raster hätten: raster1 (3 mal 3) = {{1,2, -9999}, {2,3, -9999}, {4,5, -9999}} und raster2 (3 mal 3) = {{2,2, -9999}, {- 9999,3,4}, {- 9999, -9999, -9999}}. wobei kein Datenwert -9999 ist. Vielen Dank!!!

@opl Die Differenz der beiden ist gleich {{-1,0, Null}, {Null, 0, Null}, {Null, Null, Null}}. Daher ist die quadratische Differenz gleich {{1,0, Null}, {Null, 0, Null}, {Null, Null, Null}} und der Indikator gleich {{1,1, Null}, {Null, 1, Null} , {Null, Null, Null}}. Ihre Summen sind 1 bzw. 3, was ein mittleres Quadrat von 1/3 und dort einen Effektivwert von Sqrt (1/3) ergibt.

— whuber

@whuber: Kann man sagen, dass der resultierende 'rmse'-Wert in einem bestimmten Bereich liegt, z. B. min 0 und max 10 ...? so dass ich sagen kann, dass es besser ist, wenn es nahe am Minimalwert liegt, und wenn es näher am Maximalwert liegt, dann weicht es erheblich ab oder umgekehrt. Danke im Voraus!

@opl Normalerweise können Sie die rmse nicht im Voraus vorhersagen, es sei denn, Sie wissen etwas darüber, wie sich die Gitter wahrscheinlich ändern. Beispielsweise können die Metadaten für jedes Raster einen quantitativen Hinweis auf ihre wahrscheinliche Abweichung von der Wahrheit liefern. Angenommen, jeder ist ein DEM und einer hat einen angegebenen vertikalen Fehler von + -15 m und der andere hat einen angegebenen vertikalen Fehler von + -20 m. Nehmen wir diese als grobe Angaben zur Standardabweichung, können wir sie kombinieren, um einen relativen Fehler von Sqrt (15 ^ 2 + 20 ^ 2) = 25 m zu schätzen . In diesem Fall würde ich erwarten, dass der Abstand zwischen den beiden etwa 25 m beträgt.

— whuber