Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Verständnis der geschichteten Kreuzvalidierung
Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …


4
Wie werden korrelierte Zufallszahlen generiert (gegebene Mittelwerte, Varianzen und Grad der Korrelation)?
Es tut mir leid, wenn dies ein bisschen zu grundlegend erscheint, aber ich schätze, ich versuche hier nur, das Verständnis zu bestätigen. Ich habe das Gefühl, dass ich dies in zwei Schritten tun müsste, und ich habe angefangen, Korrelationsmatrizen zu erstellen, aber es scheint erst sehr involviert zu sein. Ich …

3
Daten-APIs / Feeds sind als Pakete in R verfügbar
EDIT: Die Web - Technologien und Services CRAN Aufgabenansicht enthält eine viel umfassendere Liste der Datenquellen und APIs in R. Sie können eine Pull - Anforderung auf Github einreichen , wenn Sie ein Paket zur Aufgabe Ansicht hinzufügen möchten. Ich erstelle eine Liste der verschiedenen Datenfeeds, die bereits in R …
53 r  references  dataset 

10
Maschinelles Lernen mit Python
Ich denke darüber nach, Python-Bibliotheken für meine maschinellen Lernexperimente zu verwenden. Bisher hatte ich mich auf WEKA verlassen, war aber insgesamt ziemlich unzufrieden. Dies ist in erster Linie darauf zurückzuführen, dass ich festgestellt habe, dass WEKA nicht so gut unterstützt wird (sehr wenige Beispiele, Dokumentation ist spärlich und Community-Support ist …

6
Effiziente lineare Online-Regression
Ich analysiere einige Daten, bei denen ich eine normale lineare Regression durchführen möchte. Dies ist jedoch nicht möglich, da ich es mit einer Online-Einstellung mit einem kontinuierlichen Strom von Eingabedaten zu tun habe (die schnell zu groß für Speicher werden) und benötigt um Parameterschätzungen zu aktualisieren, während diese verbraucht werden. …

5
Best Practice bei der Analyse von Designs zur Kontrolle vor und nach der Behandlung
Stellen Sie sich das folgende gemeinsame Design vor: 100 Teilnehmer werden nach dem Zufallsprinzip entweder einer Behandlung oder einer Kontrollgruppe zugeordnet Die abhängige Variable ist numerisch und wird vor und nach der Behandlung gemessen Drei offensichtliche Möglichkeiten zur Analyse solcher Daten sind: Testen Sie die Gruppe nach Zeitinteraktionseffekt in gemischter …

9
Messung von Entropie / Information / Mustern einer 2d-Binärmatrix
Ich möchte die Entropie / Informationsdichte / Musterähnlichkeit einer zweidimensionalen binären Matrix messen. Lassen Sie mich zur Verdeutlichung einige Bilder zeigen: Diese Anzeige sollte eine ziemlich hohe Entropie haben: EIN) Dies sollte eine mittlere Entropie haben: B) Diese Bilder sollten schließlich alle eine Entropie nahe Null haben: C) D) E) …


5
Was sind die Nachteile von Zustandsraummodellen und Kalman-Filtern für die Zeitreihenmodellierung?
Angesichts aller guten Eigenschaften von Zustandsraummodellen und KF frage ich mich: Was sind die Nachteile der Zustandsraummodellierung und der Verwendung von Kalman-Filtern (oder EKF-, UKF- oder Partikelfiltern) zur Abschätzung? Sagen wir mal konventionelle Methoden wie ARIMA, VAR oder Ad-hoc / heuristische Methoden. Sind sie schwer zu kalibrieren? Sind sie kompliziert …

7
Periodenerkennung einer generischen Zeitreihe
Dieser Beitrag ist die Fortsetzung eines anderen Beitrags, der sich auf eine allgemeine Methode zur Erkennung von Ausreißern in Zeitreihen bezieht . Grundsätzlich bin ich an dieser Stelle an einer robusten Methode interessiert, um die Periodizität / Saisonalität einer allgemeinen Zeitreihe zu ermitteln, die von vielen Störungen betroffen ist. Aus …



5
Wann sind unausgeglichene Daten beim maschinellen Lernen wirklich ein Problem?
Wir hatten bereits mehrere Fragen zu unausgeglichenen Daten bei der Verwendung von logistischer Regression , SVM , Entscheidungsbäumen , Absacken und einer Reihe anderer ähnlicher Fragen, was es zu einem sehr beliebten Thema macht! Leider scheint jede der Fragen algorithmenspezifisch zu sein, und ich habe keine allgemeinen Richtlinien für den …

3
Warum kümmern wir uns so sehr um normalverteilte Fehlerterme (und Homoskedastizität) in der linearen Regression, wenn wir das nicht müssen?
Ich nehme an, dass ich jedes Mal frustriert bin, wenn ich jemanden sagen höre, dass die Nichtnormalität von Residuen und / oder Heteroskedastizität gegen die OLS-Annahmen verstößt. Zur Schätzung von Parametern in einem OLS-Modell ist nach dem Gauß-Markov-Theorem keine dieser Annahmen erforderlich. Ich verstehe, wie wichtig dies beim Testen von …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.