Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

4
Kann Bootstrap als "Heilung" für die kleine Stichprobengröße angesehen werden?
Diese Frage wurde durch etwas ausgelöst, das ich in diesem Statistiklehrbuch für Hochschulabsolventen gelesen und (unabhängig) während dieser Präsentation auf einem statistischen Seminar gehört habe. In beiden Fällen lautete die Aussage wie folgt: "Da die Stichprobengröße ziemlich klein ist, haben wir beschlossen, die Schätzung über Bootstrap anstelle (oder zusammen mit) …

10
Gibt es eine Mindeststichprobengröße, die erforderlich ist, damit der t-Test gültig ist?
Ich arbeite derzeit an einem quasi-experimentellen Forschungspapier. Aufgrund der geringen Bevölkerungszahl in dem ausgewählten Gebiet habe ich nur eine Stichprobengröße von 15 und nur 15 entsprechen meinen Kriterien. Ist 15 die minimale Stichprobengröße, die für T-Test und F-Test berechnet werden muss? Wenn ja, wo kann ich einen Artikel oder ein …

8
Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.
Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

4
Wie kann man sich vorstellen, was die kanonische Korrelationsanalyse (im Vergleich zu der Hauptkomponentenanalyse) leistet?
Die kanonische Korrelationsanalyse (CCA) ist eine Technik im Zusammenhang mit der Hauptkomponentenanalyse (PCA). Während es einfach ist, PCA oder lineare Regression mithilfe eines Streudiagramms zu lehren (siehe einige tausend Beispiele zur Google-Bildsuche), habe ich für CCA kein ähnliches intuitives zweidimensionales Beispiel gesehen. Wie erklärt man visuell, was lineares CCA bewirkt?


5
Verwendung der k-fachen Kreuzvalidierung für die Auswahl von Zeitreihenmodellen
Frage: Ich möchte sicher sein, ob die Verwendung der k-fachen Kreuzvalidierung mit Zeitreihen unkompliziert ist oder ob man vor der Verwendung besondere Aufmerksamkeit schenken muss. Hintergrund: Ich modelliere eine 6-Jahres-Zeitreihe (mit Semi-Markov-Kette) mit einer Datenerfassung alle 5 Minuten. Um mehrere Modelle zu vergleichen, verwende ich eine 6-fache Kreuzvalidierung, indem ich …

9
Was sind die wichtigsten philosophischen, methodologischen und terminologischen Unterschiede zwischen Ökonometrie und anderen statistischen Bereichen?
Die Ökonometrie überschneidet sich erheblich mit der traditionellen Statistik, verwendet jedoch häufig eine eigene Fachsprache zu einer Vielzahl von Themen ("Identifizierung", "exogen" usw.). Ich habe einmal von einem Professor für angewandte Statistik in einem anderen Fachgebiet gehört, dass die Terminologie häufig unterschiedlich ist, die Konzepte jedoch gleich sind. Es hat …

9
Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests?
Warum ist es bei einer multiplen linearen Regression möglich, eine hochsignifikante F-Statistik (p &lt;0,001) zu erhalten, die jedoch bei allen t-Tests des Regressors sehr hohe p-Werte aufweist? In meinem Modell gibt es 10 Regressoren. Einer hat einen p-Wert von 0,1 und der Rest liegt über 0,9 Informationen zur Behebung dieses …

15
Praktische Gedanken zur erklärenden vs. prädiktiven Modellierung
Im April nahm ich an einem Vortrag in der Seminarreihe der Statistikabteilung des UMD teil, der sich "Erklären oder Vorhersagen?" Der Vortrag wurde von Prof. Galit Shmueli gehalten, der an der Smith Business School von UMD unterrichtet. Ihr Vortrag basierte auf Recherchen zu einem Artikel mit dem Titel "Predictive vs. …

9
Welchen Algorithmus sollte ich verwenden, um Anomalien in Zeitreihen zu erkennen?
Hintergrund Ich arbeite im Network Operations Center. Wir überwachen Computersysteme und deren Leistung. Eine der wichtigsten zu überwachenden Messgrößen ist die Anzahl der Besucher / Kunden, die derzeit mit unseren Servern verbunden sind. Um dies sichtbar zu machen, sammeln wir (Ops-Team) Metriken wie Zeitreihendaten und zeichnen Diagramme. Graphite ermöglicht es …

1
Wie kann der Datensatz für die Kreuzvalidierung, Lernkurve und Endbewertung aufgeteilt werden?
Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …


2
Wie funktioniert die Keras-Einbettungsebene?
Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

3
Warum interessieren sich Forscher für neuronale Netze für Epochen?
Eine Epoche in stochastischer Gradientenabnahme ist definiert als ein einzelner Durchgang durch die Daten. Für jedes SGD-Minibatch werden kkk Proben gezogen, der Gradient berechnet und die Parameter aktualisiert. In der Epocheneinstellung werden die Muster ersatzlos gezogen. Dies erscheint jedoch unnötig. Warum nicht jedes SGD-Minibatch so zeichnen, wie kkk zufällig aus …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.