Statistiken und Big Data

3

Verständnis der geschichteten Kreuzvalidierung

Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …

54 cross-validation stratification

3

Gibt es eine Box-Cox-ähnliche Transformation für unabhängige Variablen? Das heißt, eine Transformation, die die Variable so optimiert , dass sie für ein lineares Modell angemessener ist?Xxxy~f(x) Wenn ja, gibt es eine Funktion, mit der dies durchgeführt werden kann R?

53 r regression data-transformation normality-assumption

4

Wie werden korrelierte Zufallszahlen generiert (gegebene Mittelwerte, Varianzen und Grad der Korrelation)?

Es tut mir leid, wenn dies ein bisschen zu grundlegend erscheint, aber ich schätze, ich versuche hier nur, das Verständnis zu bestätigen. Ich habe das Gefühl, dass ich dies in zwei Schritten tun müsste, und ich habe angefangen, Korrelationsmatrizen zu erstellen, aber es scheint erst sehr involviert zu sein. Ich …

53 probability correlation conditional-probability random-generation

3

Daten-APIs / Feeds sind als Pakete in R verfügbar

EDIT: Die Web - Technologien und Services CRAN Aufgabenansicht enthält eine viel umfassendere Liste der Datenquellen und APIs in R. Sie können eine Pull - Anforderung auf Github einreichen , wenn Sie ein Paket zur Aufgabe Ansicht hinzufügen möchten. Ich erstelle eine Liste der verschiedenen Datenfeeds, die bereits in R …

53 r references dataset

10

Maschinelles Lernen mit Python

Ich denke darüber nach, Python-Bibliotheken für meine maschinellen Lernexperimente zu verwenden. Bisher hatte ich mich auf WEKA verlassen, war aber insgesamt ziemlich unzufrieden. Dies ist in erster Linie darauf zurückzuführen, dass ich festgestellt habe, dass WEKA nicht so gut unterstützt wird (sehr wenige Beispiele, Dokumentation ist spärlich und Community-Support ist …

53 machine-learning python

6

Effiziente lineare Online-Regression

Ich analysiere einige Daten, bei denen ich eine normale lineare Regression durchführen möchte. Dies ist jedoch nicht möglich, da ich es mit einer Online-Einstellung mit einem kontinuierlichen Strom von Eingabedaten zu tun habe (die schnell zu groß für Speicher werden) und benötigt um Parameterschätzungen zu aktualisieren, während diese verbraucht werden. …

53 time-series regression algorithms real-time

5

Best Practice bei der Analyse von Designs zur Kontrolle vor und nach der Behandlung

Stellen Sie sich das folgende gemeinsame Design vor: 100 Teilnehmer werden nach dem Zufallsprinzip entweder einer Behandlung oder einer Kontrollgruppe zugeordnet Die abhängige Variable ist numerisch und wird vor und nach der Behandlung gemessen Drei offensichtliche Möglichkeiten zur Analyse solcher Daten sind: Testen Sie die Gruppe nach Zeitinteraktionseffekt in gemischter …

53 anova ancova clinical-trials change-scores

9

Messung von Entropie / Information / Mustern einer 2d-Binärmatrix

Ich möchte die Entropie / Informationsdichte / Musterähnlichkeit einer zweidimensionalen binären Matrix messen. Lassen Sie mich zur Verdeutlichung einige Bilder zeigen: Diese Anzeige sollte eine ziemlich hohe Entropie haben: EIN) Dies sollte eine mittlere Entropie haben: B) Diese Bilder sollten schließlich alle eine Entropie nahe Null haben: C) D) E) …

53 algorithms binary-data entropy pattern-recognition information

30

Die bekanntesten Statistiker

Was sind die wichtigsten Statistiker und was hat sie berühmt gemacht? (Bitte antworten Sie nur einem Wissenschaftler pro Antwort.)

53 methodology history

5

Was sind die Nachteile von Zustandsraummodellen und Kalman-Filtern für die Zeitreihenmodellierung?

Angesichts aller guten Eigenschaften von Zustandsraummodellen und KF frage ich mich: Was sind die Nachteile der Zustandsraummodellierung und der Verwendung von Kalman-Filtern (oder EKF-, UKF- oder Partikelfiltern) zur Abschätzung? Sagen wir mal konventionelle Methoden wie ARIMA, VAR oder Ad-hoc / heuristische Methoden. Sind sie schwer zu kalibrieren? Sind sie kompliziert …

53 time-series arima kalman-filter var

7

Periodenerkennung einer generischen Zeitreihe

Dieser Beitrag ist die Fortsetzung eines anderen Beitrags, der sich auf eine allgemeine Methode zur Erkennung von Ausreißern in Zeitreihen bezieht . Grundsätzlich bin ich an dieser Stelle an einer robusten Methode interessiert, um die Periodizität / Saisonalität einer allgemeinen Zeitreihe zu ermitteln, die von vielen Störungen betroffen ist. Aus …

53 time-series algorithms frequency real-time

5

Adam-Optimierer mit exponentiellem Zerfall

In den meisten Tensorflow-Codes, die ich gesehen habe, wird Adam Optimizer mit einer konstanten Lernrate von 1e-4(dh 0,0001) verwendet. Der Code sieht normalerweise so aus: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added …

53 neural-networks deep-learning gradient-descent tensorflow adam

2

Was bedeutet „konstante Varianz“ in einem linearen Regressionsmodell?

Was bedeutet "konstante Varianz" im Fehlerbegriff? Aus meiner Sicht haben wir Daten mit einer abhängigen Variablen und einer unabhängigen Variablen. Konstante Varianz ist eine der Annahmen der linearen Regression. Ich frage mich, was Homoskedastizität bedeutet. Denn selbst wenn ich 500 Zeilen hätte, hätte ich einen einzigen Varianzwert, der offensichtlich konstant …

53 regression heteroscedasticity

5

Wann sind unausgeglichene Daten beim maschinellen Lernen wirklich ein Problem?

Wir hatten bereits mehrere Fragen zu unausgeglichenen Daten bei der Verwendung von logistischer Regression , SVM , Entscheidungsbäumen , Absacken und einer Reihe anderer ähnlicher Fragen, was es zu einem sehr beliebten Thema macht! Leider scheint jede der Fragen algorithmenspezifisch zu sein, und ich habe keine allgemeinen Richtlinien für den …

53 machine-learning classification predictive-models unbalanced-classes

3

Warum kümmern wir uns so sehr um normalverteilte Fehlerterme (und Homoskedastizität) in der linearen Regression, wenn wir das nicht müssen?

Ich nehme an, dass ich jedes Mal frustriert bin, wenn ich jemanden sagen höre, dass die Nichtnormalität von Residuen und / oder Heteroskedastizität gegen die OLS-Annahmen verstößt. Zur Schätzung von Parametern in einem OLS-Modell ist nach dem Gauß-Markov-Theorem keine dieser Annahmen erforderlich. Ich verstehe, wie wichtig dies beim Testen von …

52 regression assumptions normality-assumption robust teaching