Hohe Autokorrelation bei der L-ten Differenzordnung einer Folge unabhängiger Zufallszahlen

9

Um diese Frage genauer zu erläutern, werde ich zunächst meinen Ansatz erläutern:

Ich simulierte eine Folge unabhängiger Zufallszahlen . $X = \{x_1,...,x_N\}$
Ich nehme dann mal den Unterschied; dh ich erstelle die Variablen: $L$

$dX_{1} = \{X(2)-X(1),...,X(N)-X(N-1)\}$

$dX_{2} = \{dX_{1}(2)-dX_{1}(1),...,dX_{1}(N-1)-dX_{1}(N-1-1)\}$

$...$

$dX_{L} = \{dX_{L-1}(2)-dX_{L-1}(1),...,dX_{L-1}(N-L)-dX_{L-1}(N-L-1)\}$

Ich beobachte, dass die (absolute) Autokorrelation von $dX_{L}$ zunimmt, wenn $L$ größer wird; Der Wechselstrom nähert sich sogar 0,99 für $L >100$ . Das heißt, wenn wir die L-te Differenzordnung nehmen, erzeugen wir eine Reihe stark abhängiger Zahlen (Sequenzen) aus einer anfänglich unabhängigen Sequenz.

Hier sind einige Grafiken, um meine Beobachtungen zu veranschaulichen:

Meine Fragen:

Gibt es eine Theorie hinter diesem Ansatz und seinen Implikationen oder Anwendungen für ihn?
Zeigt dies an, dass dieser Ansatz die Schwächen eines Pseudozufallsgenerators (des Computers) ausnutzt. Dh die erzeugte "zufällige" Sequenz ist nicht völlig zufällig, und dies wird durch meinen Ansatz veranschaulicht / bewiesen?
Können wir die hohe Autokorrelation der L-ten Ordnung von Differenzen ausnutzen, um die nächste Zahl in der Sequenz vorherzusagen (dh )? Das heißt, wenn wir die nächste Anzahl von vorhersagen können (z. B. durch lineare Regression), können wir die geschätzte Sequenz zurückleiten, indem wir das fache der kumulativen Summe nehmen. Ist das ein praktikabler Ansatz? $X(N+1)$ $dX_{L}$ $X(i)$ $L$

Ziel Beachten Sie, dass ich versuche, vorherzusagen , aber da die Zahlen unabhängig und zufällig generiert werden, ist dies sehr schwierig (niedriger Wechselstrom von ). $X(N+1)$ $N$

— John Andrews
quelle

Es tut mir leid. Sie haben es zweimal bearbeitet, aber es gibt eine Menge, die ich nicht verstehe. Ich bezweifle, dass das Problem beim Pseudozufallszahlengenerator liegt. Transformieren Sie die einheitlichen Zufallszahlen in eine andere Verteilung? Sie nehmen Unterschiede, aber warum, wenn angenommen wird, dass die Variablen unabhängig sind? Warum versuchen Sie, Zahlen in der Sequenz vorherzusagen? Eine Differenzierung wird normalerweise durchgeführt, um den Polynomtrend zu entfernen.

— Michael R. Chernick

@Michael Mein Ziel ist es, die nächste Zahl in der Sequenz vorherzusagen und die Verteilung nicht zu ändern. Der Versuch, X (N + 1) vorherzusagen, ist schwierig, da die Nummern der Sequenz unabhängig und zufällig sind (auch niedriger Autokorr.). Also habe ich die Sequenz L-mal differenziert und festgestellt, dass der Wechselstrom zunimmt, wenn L zunimmt, was dazu führte, dass ich mich fragte, was dies bedeutet und ob es ausgenutzt werden kann.

— John Andrews

Ich habe einige Grafiken zur Veranschaulichung hinzugefügt.

— John Andrews

1

Die Differenz der Ordnung ist eine lineare Kombination der ursprünglichen Werte über ein Fenster der Breite , so dass natürlich starke Beziehungen zwischen aufeinanderfolgenden Werten der Unterschiede bestehen. Es gibt keine Möglichkeit, dies auszunutzen, da Sie im Grunde winzige Abweichungen von den Werten vorhersagen, die Sie bereits kennen.

L

$L$

L + 1

$L+1$

— whuber

12

Theorie

Wenn die Autokorrelation eine Bedeutung haben soll, müssen wir annehmen, dass die ursprünglichen Zufallsvariablen dieselbe Varianz haben, die wir - durch eine geeignete Wahl der Maßeinheiten - auf Eins setzen können. Aus der Formel für die endliche Differenz $X_0, X_1, \ldots, X_N$ $L^\text{th}$

X_{i}^{(L)} = (Δ^{L} (X))_{i} = \sum_{k = 0}^{L} (- 1)^{L - k} (\binom{L}{k}) X_{i + k}

$X^{(L)}_i=(\Delta^L(X))_i = \sum_{k=0}^L (-1)^{L-k}\binom{L}{k} X_{i+k}$

für und die Unabhängigkeit des berechnen wir leicht $0 \le i \le N-L$ $X_i$

\begin{matrix} (1) & Var (X_{i}^{(L)}) = \sum_{k = 0}^{L} {(\binom{L}{k})}^{2} = (\binom{2 L}{L}) \end{matrix}

$\operatorname{Var}(X^{(L)}_i) = \sum_{k=0}^L \binom{L}{k}^2 = \binom{2L}{L}\tag{1}$

und für und , $0 \lt j \lt L$ $i \le N-L-j$

\begin{matrix} (2) & Cov (X_{i}^{(L)}, X_{i + j}^{(L)}) = (- 1)^{j} \sum_{k = 0}^{L - j} (\binom{L}{k}) (\binom{L}{k + j}) = (- 1)^{j} \frac{4^{L} (\binom{L}{j}) j! Γ (L + 1 / 2)}{\sqrt{π} (L + j)!} . \end{matrix}

$\operatorname{Cov}(X^{(L)}_i, X^{(L)}_{i+j}) = (-1)^{j}\sum_{k=0}^{L-j} \binom{L}{k}\binom{L}{k+j} = (-1)^{j}\frac{4^L \binom{L}{j} j!\Gamma(L+1/2)}{\sqrt{\pi}(L+j)!}.\tag{2}$

Dividieren nach gibt die lag- serielle Korrelation . Es ist negativ für ungerade und positiv für gerade . $(2)$ $(1)$ $j$ $\rho_j$ $j$ $j$

Stirlings Formel liefert eine leicht interpretierbare Annäherung

\log (| ρ_{j} |) \approx - (\frac{j^{2}}{L} - \frac{j^{2}}{2 L^{2}} + \frac{j^{2} (j^{2} + 1)}{6 L^{3}} - \frac{j^{4}}{4 L^{4}} + O (L^{- 5}) O (j^{6}))

$\log(|\rho_j|) \approx -\left(\frac{j^2}{L} - \frac{j^2}{2 L^2} + \frac{j^2 \left(j^2+1\right)}{6L^3}-\frac{j^4}{4 L^4} + O(L^{-5})O(j^6)\right)$

In Abhängigkeit von seine Größe ungefähr eine Gaußsche ("glockenförmige") Kurve, wie wir es von jedem diffusionsbasierten Verfahren wie aufeinanderfolgenden Differenzen erwarten würden. Hier ist eine Darstellung vondurchals Funktion von , die zeigt, wie schnell sich die serielle Korrelation nähert . In der Reihenfolge von oben nach unten stehen die Punkte fürdurch. $j$ $|\rho_1|$ $|\rho_5|$ $L$ $1$ $|\rho_1|$ $|\rho_5|$

Schlussfolgerungen

Da es sich um rein mathematische Beziehungen handelt, verraten sie wenig über das . Da alle endlichen Differenzen lineare Kombinationen der ursprünglichen Variablen sind, liefern sie insbesondere keine zusätzlichen Informationen, die zur Vorhersage von aus . $X_i$ $X_{N+1}$ $X_0, X_1, \ldots, X_N$

Praktische Beobachtungen

Wenn wächst, wachsen die Koeffizienten in den linearen Kombinationen exponentiell. Beachten Sie, dass jedes eine alternierende Summe ist: Insbesondere erscheinen in der Mitte dieser Summe relativ große Koeffizienten in der Nähe von . Betrachten Sie die tatsächlichen Daten, die ein wenig zufälligem Rauschen ausgesetzt sind. Dieses Rauschen wird mit diesen großen Binomialkoeffizienten multipliziert, und dann werden diese großen Ergebnisse durch abwechselnde Addition und Subtraktion nahezu aufgehoben . Infolgedessen werden solche endlichen Differenzen für große berechnet $L$ $X^{(L)}_i$ $\binom{L}{L/2}$ $L$ neigt dazu, alle Informationen in den Daten zu löschen und spiegelt nur winzige Mengen an Rauschen wider, einschließlich Messfehler und Gleitkomma-Rundungsfehler. Die offensichtlichen Muster in den Unterschieden, die in der Frage für und liefern mit ziemlicher Sicherheit keine aussagekräftigen Informationen. (Die Binomialkoeffizienten für werden so groß wie und so klein wie , was bedeutet, dass ein Gleitkommafehler mit doppelter Genauigkeit die Berechnung dominieren wird.) $L=100$ $L=168$ $L=100$ $10^{29}$ $1$

— whuber
quelle

3

Sehr klar, und nach dem Lesen macht es total Sinn. Bei Ihrem letzten Punkt habe ich es tatsächlich getestet, indem ich eine kleine Zahl (z. B. 0,00001) für ein großes hinzugefügt habe , und es ist erstaunlich zu sehen, dass es aufgrund der großen Koeffizienten einen so großen Einfluss auf hat. Mit anderen Worten, man würde eine hochgenaue Vorhersage benötigen, um die nächste Sequenz vorherzusagen, aber da die Sequenzen für ein großes keine zusätzlichen Informationen enthalten , scheint dies eine unmögliche Aufgabe zu sein.

L

$L$

X_{i}

$X_i$

L

$L$

— John Andrews

3

Dies ist eher ein Kommentar oder bestenfalls ein weiterer Hinweis zur Lösung Ihrer Frage, aber mein Ruf erlaubt mir nicht, Kommentare zu veröffentlichen.

Ich habe Ihr Experiment in Stata mithilfe von Zeichnungen aus einem Standardnormal mit dem folgenden Code repliziert:

clear all
set obs 100000

gen t = _n
tsset t

drawnorm x, n(100000)

forvalues i = 1(1)100 {
generate D`i' = D`i'.x
}

Als ich mir die Korrelogramme der differenzierten Variablen ansah, fragte ich mich, warum die Konfidenzbänder so klein sind. Ich habe noch nie so kleine Konfidenzbänder in einem Stata-Korrelogramm gesehen. Irgendwelche Ideen?

Ich dachte, dies könnte ein Hinweis sein, denn bei so kleinen Konfidenzbändern werden sogar die winzigen Autokorrelationen aus den am weitesten entfernten Verzögerungen in Ihrer absoluten Autokorrelation gezählt, wenn ich "absolut" richtig interpretiere.

Hier ist das Korrelogramm für meinen dX_10 ...

... und hier ist es wieder, vergrößert auf die ersten 10 Verzögerungen ...

— Saugraten
quelle

Sind die Konfidenzbänder in Ihrem Diagramm auch für kleinere Verzögerungen klein? Ich verwende nur AC (1) der differenzierten Variablen. Mit absolut meine ich einfach entweder negative oder positive Wechselstrom.

— John Andrews

Ja, die Bänder sind auch für dX_1 bis dX_9 sehr klein. Und, sorry, ich dachte mit "absolut" meintest du irgendwie die Summe der Korrelationen für alle Verzögerungen.

— Saugraten

AC (1) ist in der Tat höher, je mehr wir uns unterscheiden, wie Sie sagten ... interessant.

— Saugraten

3

Dies wird erwartet, da die Unterschiede nicht unabhängig voneinander sind. Zum Beispiel ist direkt proportional zu während umgekehrt proportional zuDa die Definitionen aufeinanderfolgender Elemente von Elemente von auf diese umgekehrte Weise gemeinsam nutzen, erwarten wir, dass sie umgekehrt miteinander korreliert sind. wir zu Unterschieden höherer Ordnung , teilen aufeinanderfolgende Werte einen immer höheren Anteil der Elemente von , die in ihre Definition , und ihre Antikorrelation nimmt zu. Wenn wir das gemeinsame Element jedoch nicht kannten ( $dX_1(1) \equiv X(2) - X(1)$ $X(2)$ $dX_1(2) \equiv X(3) - X(2)$ $X(2).$ $dX_1$ $X$ $dX_i$ $X$ $X(2)$ in meinem Beispiel) könnten wir keine Unterschiede berechnen, die dieses Element enthalten. Wir können daher die Antikorrelationen in den Unterschieden nicht verwenden, um unbekannte Elemente von vorherzusagen, wenn sie unabhängig von den bekannten Elementen erzeugt werden. $X$

— Nir
quelle