Was genau macht ein zufälliger Spaziergang?

Um ehrlich zu sein, habe ich viele Websites und Antworten zu dieser Frage gelesen und keine hat sie in einfachen Worten erklärt, die verständlich sind. Ich möchte verstehen, was ein zufälliger Spaziergang bewirkt und wie er für die Gen-Set-Anreicherungsanalyse verwendet werden kann.

Es gibt hier ein veröffentlichtes Papier http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3205944/, aber ich konnte es nicht wirklich verstehen.

Kann jemand bitte in einfachen Worten erklären, was es tut?

time-series biostatistics bioinformatics

— Lerner
quelle

Das sind zwei sehr unterschiedliche Fragen!

— Alexis

@Alexis Ich habe deine Überarbeitung akzeptiert, ich hoffe jetzt ist es klar!

— Lerner

@Nemo Ich habe nicht verwandte Tags entfernt und Zeitreihen- Tags hinzugefügt . Sie können meine Änderungen jederzeit bearbeiten oder zusätzliche Tags hinzufügen, aber Tags wie r , statistische Signifikanz oder Mathematik scheinen hier nichts miteinander zu tun zu haben.

— Tim

Ich werde versuchen, Ihre erste Frage zu beantworten

Ein zufälliger Spaziergang ist eine Reihe von Messungen, bei denen der Wert an einem bestimmten Punkt in der Reihe der Wert des vorherigen Punkts in der Reihe zuzüglich einer zufälligen Menge ist.

Angenommen, Sie werfen eine faire Münze in einer Reihe von Würfen und jedes Mal, wenn die Münze auftaucht, addieren Sie 1 zum vorherigen Wert Ihrer seriellen Variablen, und jedes Mal, wenn die Münze auftaucht, subtrahieren Sie 1 vom vorherigen Wert Ihrer seriellen Variablen. Wenn der Startwert 0 ist und Sie die folgende Folge von Münzwürfen umdrehen:

T H T T T H H H T T H T H T H

$y$

0 -1 0 -1 -2 -3 -2 -3 -1 -2 -2 -1 -2 -1 -2 -1

$y$

y_{t} = y_{t - 1} + 2 B e r n o u l l i (0.5) - 1

$y_{t} = y_{t-1} + 2\mathcal{Bernoulli}(0.5)–1$

Die Verteilung von hängt von der Zeit und gibt einer Stichprobe von über verschiedene Zeiten einige interessante Eigenschaften : $y$ $t$ $y$

Der Mittelwert von ist undefiniert. $y$ Dies mag kontraintuitiv erscheinen, da Sie erwarten können, dass Kopf und Zahl einer ausgeglichenen Münze auf Null zentriert sind. Dies gilt soweit es geht, aber Null war nur ein beliebiger Startwert von . $y$ Es gibt also keinen wirklichen Mittelwert!
Die Varianz von . $y=t$ Mit zunehmender Zeit (Anzahl der Flips) nimmt auch die Varianz zu. Zum Beispiel sind beim ersten Flip ( ) die möglichen Werte oder , und tatsächlich ist die Varianz dann 1. Beim zweiten Flip ( ) sind die möglichen Werte , oder und die Varianz ist gleich 2. Für eine unendliche Anzahl von Flips (bei , wenn der Bereich aller möglichen Werte von von bis ) ist die Varianz unendlich. $t=1$ $1$ $-1$ $t=2$ $2$ $0$ $-2$ $t=\infty$ $y$ $-\infty$ $\infty$

Diese beiden Tatsachen wirken sich verheerend auf den Versuch aus, Rückschlüsse auf die Verteilung von (anstelle von für ein gegebenes ) zu ziehen, wenn nur eine Stichprobe verwendet wird, wenn die grundlegenden Werkzeuge der statistischen Inferenz verwendet werden. (Wie kann ein endlicher undefiniert schätzen ? Wie kann ein endlicher schätzen ?) $y$ $y_{t}$ $y_{0}$ $\bar{y}$ $s^{2}_{y}$ $\sigma^{2}_{y}=\infty$

Es gibt viele Arten von zufälligen Spaziergängen und allgemeiner von autogregressiven Prozessen (dh jede Variable, die in irgendeiner Weise von ihren vorherigen Werten abhängt). Das Beispiel hier verwendet eine einfache Bernouli-Zufallsvariable (den Münzwurf), aber man könnte:

füge stattdessen einen normalverteilten Zufallswert zu aufeinanderfolgenden Werten von ... oder tatsächlich einen Zufallswert, der aus irgendeiner Art von Verteilung gezogen wird; $y$
Lassen Sie den Wert von zu einem bestimmten Zeitpunkt von vorherigen Werten von ab mehr als einem Zeitpunkt abhängen (z. B. ); $y$ $y$ $y_{t} = y_{t-1} + y_{t-2} + \text{Something Random}$
Koppeln Sie den Wert von mit einem Zufallswert von , um einen zweidimensionalen Zufallslauf zu erstellen. $y$ $x$
mache einer ausgefallenen Funktion von , ein einfaches Beispiel ist , wobei , was bedeutet, dass die Erinnerung an einen bestimmten Moment von mit der Zeit abnimmt (wobei die Erinnerung länger dauert, je näher an 1 liegt) - laut Alecos 'Kommentaren wäre dies einfach' autoregressiv '(ein reiner Zufallslauf hätte ); $y_{t}$ $y_{t-1}$ $y_{t} = \alpha y_{t-1} + \text{Something Random}$ $|\alpha| < 1$ $y$ $|\alpha|$ $|\alpha|=1$
Machen Sie viele andere Dinge, um zufällige Spaziergänge und / oder autoregressive Prozesse komplexer zu gestalten.

Aber sie sind alle Dickens, die versuchen, mit den grundlegenden Methoden zu analysieren. Aus diesem Grund verfügen wir über integrierte Regressions- und Fehlerkorrekturmodelle sowie andere Zeitreihenanalysetechniken für den Umgang mit dieser Art von Daten (die wir unter anderen Bezeichnungen manchmal als "nicht integriert", "lange gespeichert" oder "Einheitswurzel" bezeichnen , abhängig von den Details).

Der Ursprung des Begriffs "Random Walk" liegt in zwei sehr kurzen Briefen an die Natur aus dem Jahr 1905.

Literaturhinweise
Pearson, K. (1905). Briefe an den Herausgeber: Das Problem des zufälligen Spaziergangs. Nature , 72 (1865): 294.

Pearson, K. (1905). Briefe an den Herausgeber: Das Problem des zufälligen Spaziergangs. Nature , 72 (1867): 342.

— Alexis
quelle

Sie schreiben: "Ein zufälliger Spaziergang ist eine Reihe von Messungen, bei denen der Wert an einem bestimmten Punkt in der Reihe von den Werten der vorherigen Punkte in der Reihe abhängt." Dies beschreibt jedoch jeden autoregressiven Prozess, und nicht alle autoregressiven Prozesse sind zufällige Spaziergänge. Da Sie das Thema offensichtlich kennen, halte ich es für hilfreich, wenn Sie diese Aussage überarbeiten, um die einzigartigen Merkmale eines zufälligen Spaziergangs an die Oberfläche zu bringen.

— Alecos Papadopoulos

@AlecosPapadopoulos TY! Bitte helfen Sie mir hier raus ... kennen Sie das Thema nicht so gut. Wie würden Sie vorschlagen, dass ich zufällige Spaziergänge von autoregressiven Prozessen unterscheide?

— Alexis

Gern. Es gibt eine große Literatur über zufällige Spaziergänge, das Thema ist sehr vielfältig. Auf der ersten Ebene zeichnet sich ein zufälliger Spaziergang jedoch dadurch aus, dass alle vergangenen Werte jedes Schritts mit ihrem vollen Wert zum aktuellen Wert ihrer Summe (dem zufälligen Spaziergang) beitragen. In einem autoregressiven Prozess normalerweise der Effekt der Vergangenheit stirbt allmählich aus. Sie diskutieren dies im Wesentlichen in Ihrem Beitrag. Auch jetzt lese ich Ihre Antwort noch einmal. Vielleicht möchten Sie die Verwendung des Wortes "Population" : Jedes hat eine andere Verteilung, also in welchem Sinne zur selben Bevölkerung gehören?

y_{t}

$y_t$

y_{t}, y_{t + 1} . . .

$y_t, y_{t+1}...$

— Alecos Papadopoulos

@Nemo Sie eine bestimmte Art von Verhalten bekommen ( in der Regel im Laufe der Zeit): die Vergangenheit bestimmt voll , wo Sie sind - aber der Evolutionspfad nicht beeinträchtigen , wenn Sie die nächsten sein werden. Wie der Prozess zu seiner aktuellen Position gelangt ist, spielt für die Zukunft keine Rolle.

— Alecos Papadopoulos

Ein zufälliger Spaziergang ist wirklich nicht "einem Kolmogorov-Smirnov-Test ähnlich". Eine Ableitung der asymptotischen Verteilung der KS-Teststatistik unter der Nullhypothese verwendet einen Begriff, der sich auf einen zufälligen Gang bezieht. Der Sinn dieser Verbindung scheint aus meinem kurzen Blick darin zu bestehen, die Entwicklung im nächsten Abschnitt (dem GSEA-Test) zu motivieren. Ich bin mir nicht sicher, ob das eine gute Wahl war. Es scheint Sie eher verwirrt zu haben, als Ihnen zu helfen, zu sehen, was los war. Ich schlage vor, Sie versuchen, zufällige Spaziergänge separat zu verstehen, bevor Sie versuchen, den Zusammenhang zwischen zufälligen Spaziergängen und GSEA zu verstehen.

— Glen_b -Rate State Monica