Was ist ein guter Weg, um die „Linearität“ eines Datensatzes zu messen?

8

Ich habe einen empirisch gesammelten Datensatz, der zwei Variablen in Beziehung setzt. Über einen kleinen Bereich erscheint die Beziehung linear, über einen größeren Bereich gibt es jedoch eindeutig eine Polynombeziehung zweiter Ordnung, wie im Bild unter http://imgur.com/W7f9p zu sehen ist .

Ich versuche, ein Maß für die Linearität für verschiedene berücksichtigte Bereiche zu erhalten. ZB bei 20 <x <60 oder 100 <x <120 ist es sehr linear, aber bei 20 <x <180 ist es nicht sehr linear. Ich habe versucht, eine gerade Linie an die Daten anzupassen und die R ^ 2-Daten (Anpassungsgüte) zu berechnen, aber dies zeigt, dass die gerade Linie über den größeren Bereich besser passt als über den kleineren Bereich. Während dies bei MS Excel der Fall sein mag, ist aus dem Bild ersichtlich, dass der größere Bereich weniger linear ist ... wenn Sie die Seite eines Blattes Papier gegen die Punkte halten.

Gibt es eine bessere Möglichkeit, die "Linearität" eines Datensatzes zu messen?

signal-processing

— user714852
quelle

Diese Frage sollte (und wird wahrscheinlich) auf die Statistikseite migriert werden. Es gibt eine Menge großartiger Statistiksoftware, die kostenlos erhältlich ist. Sie können das Programm R nachschlagen und ausprobieren.

Vielleicht interessiert Sie dieses Papier ncbi.nlm.nih.gov/pubmed/16724492 Die Idee ist, ein stückweise lineares Modell anzupassen und die Gleichheit der Steigungen zu testen (ich kommentiere nicht mehr, weil ich es nicht gelesen habe)

— Stéphane Laurent

2

Interessieren Sie sich wirklich für die Linearität der Daten oder für die Linearität der zugrunde liegenden Kurve ? Der Unterschied besteht darin, dass ein auf den Daten basierendes Maß je nach Art der Abtastung variieren würde, da die Daten die Kurve (möglicherweise) ungleichmäßig abtasten, während eine Schätzung der Linearität der Kurve bei Änderungen des Abtastprogramms stabiler wäre. Außerdem haben Sie an „Linearität“ als absolute Eigenschaft begreifen (und damit in Abhängigkeit von den Messeinheiten) oder ist es eine Eigenschaft der Form der Kurve (und damit invariant unter affinen Transformationen von x und y)?

— whuber

6

Passen Sie eine quadratische statt einer linearen Funktion an. Der Absolutwert der Schätzung des höchsten Koeffizienten des Quadrats dient als sinnvolles Maß für die Linearität, die Null ist, wenn die Daten genau auf einer Linie liegen. Wenn die Daten aus einem linearen Modell mit Gaußschem Rauschen stammen, garantiert das Gauß-Markov-Theorem außerdem, dass die Koeffizientenschätzungen unverzerrt sind, und daher wird bei Wiederholung der Anpassung mit mehreren Daten aus derselben Modellverteilung der erwartete Wert des Koeffizienten sein Null.

Natürlich bekommt man bei einer einzelnen Anpassung normalerweise keine Null, daher müsste man einen Test für die Signifikanz der Koeffizienten verwenden.

— Arnold Neumaier
quelle

Können Sie etwas näher erläutern, warum es als vernünftiges Maß für die Linearität dient?

— Lucas Reis

1

@ LucasReis: Ich habe einige Gründe hinzugefügt.

— Arnold Neumaier

(+1) Es fällt mir auf, dass jedes vernünftige Maß für "Linearität" bei Änderungen von Ort und Maßstab (sowohl in den abhängigen als auch in den unabhängigen Variablen) unveränderlich sein sollte. Dies schließt die Verwendung des quadratischen Terms aus, legt jedoch nahe, dass die Verwendung des quadratischen Terms möglicherweise sinnvoll ist, wenn standardisierte Variablen in der Regression verwendet werden. Beachten Sie jedoch, dass der quadratische Term keine komplexen Abweichungen von der Linearität wie ein wellenförmiges Muster erfasst.

— whuber

@ Whuber: Guter Punkt. Die Antwort von Michael Chernick hat diese Eigenschaft und ist daher meiner vorzuziehen.

— Arnold Neumaier

x

$x$

| ρ |

$|\rho|$

1

$1$

| r h o | \approx 0

$|rho|\approx 0$

4

Ein Weg wäre, eine hierarchische Regression mit Ihrer Y-Achsenvariablen als Ergebnis / Kriterium durchzuführen. In Schritt / Block 1 geben Sie Ihre X-Variable als Prädiktor ein und in Schritt / Block 2 geben Sie einen Produktterm ein (X im Quadrat oder multipliziert mit sich selbst). Der X-Quadrat-Term repräsentiert Ihre quadratische Komponente. Die standardisierten Regressionsgewichte (Betas) für X und X im Quadrat geben Ihnen einen Eindruck von der "Stärke" der linearen und quadratischen Komponenten relativ zueinander und der Änderung des R-Quadrats von Schritt / Block 1 zu Schritt / Block 2 ist ein Hinweis darauf, wie viel besser das Modell zu den Daten passt, wenn Sie die quadratische Komponente hinzugefügt haben.

Siehe Kap. 8 in Keith, TZ (2005). Multiple Regression und darüber hinaus. Allyn & Bacon. 978-0205326440

— Douglas Maynard
quelle

1

Das beste Maß für die Linearität zwischen zwei Variablen x und y ist der Pearson-Produktmomentkorrelationskoeffizient. Je näher der absolute Wert an 1 liegt, desto näher liegt die Anpassung an einer perfekten geraden Linie. Wenn Sie nun glauben, dass eine Subregion eine gute Linearität aufweist, berechnen Sie die Korrelation nur für diese Paare in der Subregion. Wenn sich die Form außerhalb dieses Bereichs ändert, sollte sich die Korrelation in einem Abfall der Korrelation zeigen, wenn alle Daten enthalten sind.

— Michael R. Chernick
quelle

(+1) en.wikipedia.org/wiki/… erklärt den Begriff.

— Arnold Neumaier

0

Die statistischen Standardwerkzeuge sind der Korrelationskoeffizient (siehe Antwort von Michael Chernick), ein Wert zwischen [-1,1] und einheitenunabhängig. Bezogen auf den Korrelationskoeffizienten ist die Kovarianz. Die Kovarianz wird durch Einheiten beeinflusst, ist jedoch möglicherweise leichter zu interpretieren. Ich mag jedoch keine dieser Optionen im allgemeinen Fall. Ich mag sie nicht, weil sie nicht unabhängig von der konformen Transformation sind. Beachten Sie, dass eine gerade horizontale oder vertikale Linie bei beiden Maßnahmen als nicht linear angesehen wird.

Eine bessere Option ohne Einheit ist die Verwendung einer SVD (Singular Value Decomposition). Die SVD zerlegt Daten in Komponenten, die nach der Größe ihres Beitrags zum Ganzen geordnet sind. Das Verhältnis der größten Singularzahl zur zweitgrößten Singularzahl ist daher eine Metrik der Linearität. Beachten Sie, dass Sie zur Verwendung dieser Methode zuerst die Daten zentralisieren müssen (machen Sie die durchschnittlichen X-, Y-, Z- usw. Koordinaten gleich Null).

Beispiel: Pkt.: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Zentralisierte Punkte: 9.792639127 0.656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;

SVD, D-Matrix: 11,86500017 0; 0 3,813448344

Verhältnis der Singularwerte 3.111357

Das obige Verhältnis kann grob so interpretiert werden, dass die Daten in Richtung der Best-Fit-Linie dreimal so lang sind wie kreuzlinear.

Für eine Lösung mit Einheiten, die Einheiten haben und keine SVD benötigen. Führen Sie eine Linienanpassung durch, bei der der Mittelpunkt der Linie einer der Parameter ist. Die Verwendung der oben genannten zentralisierten Daten ist einfach: Zeile pt = 0 0 (bei zentralisierten Daten immer der Fall) Zeilenrichtung = -0,999956849 -0,009289783

Vektoren von der Mitte der Linie zu jedem Punkt sind die zentralisierten Koordinaten der Punkte. Bestimmen Sie die Länge der Projektion dieser Vektoren auf die Linie (absoluter Wert des Vektors punktiert die Linienrichtung) und die Länge der senkrechten Vektorkomponente (Länge der Vektorkreuzungslinienrichtung). Länge parallel, Länge senkrecht 9,798315123, 0,565480194; 0,356259742, 1,684936621; 4,536468847, 1,759433021; 4,905586534, 2,878889448;

Das Maximum paralleler Projektionen ist die Datenstrecke entlang der Linie. Die maximale Länge der senkrechten Projektion ist ein Maß für die Nichtlinearität. Das Verhältnis der beiden ist eine Annäherung an das obige Verhältnis der Singularwerte.

Anmerkungen 1. Eine affine Invarianz in der Linearität ist nicht möglich. Bedenken Sie, dass wir in einer affinen Transformation alle Koordinatenachsen bis auf eine auf nahe Null skalieren könnten (wodurch jeder Satz von Punkten linear wird). Konforme Invarianz ist also das Beste, was wir tun können. 2. Diese Methoden sind NICHT ROBUST für Ausreißerdaten. 3. Beispiele sind 2D, aber auf N-dimensional verallgemeinert.

— Orrin Thomas
quelle

Ich denke, Sie

— wollten