Statistiken und Big Data

4

Kann Bootstrap als "Heilung" für die kleine Stichprobengröße angesehen werden?

Diese Frage wurde durch etwas ausgelöst, das ich in diesem Statistiklehrbuch für Hochschulabsolventen gelesen und (unabhängig) während dieser Präsentation auf einem statistischen Seminar gehört habe. In beiden Fällen lautete die Aussage wie folgt: "Da die Stichprobengröße ziemlich klein ist, haben wir beschlossen, die Schätzung über Bootstrap anstelle (oder zusammen mit) …

71 bootstrap small-sample

10

Gibt es eine Mindeststichprobengröße, die erforderlich ist, damit der t-Test gültig ist?

Ich arbeite derzeit an einem quasi-experimentellen Forschungspapier. Aufgrund der geringen Bevölkerungszahl in dem ausgewählten Gebiet habe ich nur eine Stichprobengröße von 15 und nur 15 entsprechen meinen Kriterien. Ist 15 die minimale Stichprobengröße, die für T-Test und F-Test berechnet werden muss? Wenn ja, wo kann ich einen Artikel oder ein …

71 t-test sample-size assumptions power

8

Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.

Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Wie kann man sich vorstellen, was die kanonische Korrelationsanalyse (im Vergleich zu der Hauptkomponentenanalyse) leistet?

Die kanonische Korrelationsanalyse (CCA) ist eine Technik im Zusammenhang mit der Hauptkomponentenanalyse (PCA). Während es einfach ist, PCA oder lineare Regression mithilfe eines Streudiagramms zu lehren (siehe einige tausend Beispiele zur Google-Bildsuche), habe ich für CCA kein ähnliches intuitives zweidimensionales Beispiel gesehen. Wie erklärt man visuell, was lineares CCA bewirkt?

70 regression data-visualization pca canonical-correlation geometry

12

Was sind einige der häufigsten Missverständnisse über lineare Regression?

Ich bin gespannt auf diejenigen unter Ihnen, die über umfangreiche Erfahrung in der Zusammenarbeit mit anderen Forschern verfügen. Was sind einige der häufigsten Missverständnisse in Bezug auf lineare Regression, denen Sie begegnen? Ich denke, kann eine nützliche Übung sein, um über häufige Missverständnisse im Voraus nachzudenken, um Nehmen Sie die …

70 regression multiple-regression

5

Verwendung der k-fachen Kreuzvalidierung für die Auswahl von Zeitreihenmodellen

Frage: Ich möchte sicher sein, ob die Verwendung der k-fachen Kreuzvalidierung mit Zeitreihen unkompliziert ist oder ob man vor der Verwendung besondere Aufmerksamkeit schenken muss. Hintergrund: Ich modelliere eine 6-Jahres-Zeitreihe (mit Semi-Markov-Kette) mit einer Datenerfassung alle 5 Minuten. Um mehrere Modelle zu vergleichen, verwende ich eine 6-fache Kreuzvalidierung, indem ich …

70 time-series modeling cross-validation

9

Was sind die wichtigsten philosophischen, methodologischen und terminologischen Unterschiede zwischen Ökonometrie und anderen statistischen Bereichen?

Die Ökonometrie überschneidet sich erheblich mit der traditionellen Statistik, verwendet jedoch häufig eine eigene Fachsprache zu einer Vielzahl von Themen ("Identifizierung", "exogen" usw.). Ich habe einmal von einem Professor für angewandte Statistik in einem anderen Fachgebiet gehört, dass die Terminologie häufig unterschiedlich ist, die Konzepte jedoch gleich sind. Es hat …

70 econometrics terminology

9

Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests?

Warum ist es bei einer multiplen linearen Regression möglich, eine hochsignifikante F-Statistik (p <0,001) zu erhalten, die jedoch bei allen t-Tests des Regressors sehr hohe p-Werte aufweist? In meinem Modell gibt es 10 Regressoren. Einer hat einen p-Wert von 0,1 und der Rest liegt über 0,9 Informationen zur Behebung dieses …

70 hypothesis-testing regression t-test multicollinearity

15

Praktische Gedanken zur erklärenden vs. prädiktiven Modellierung

Im April nahm ich an einem Vortrag in der Seminarreihe der Statistikabteilung des UMD teil, der sich "Erklären oder Vorhersagen?" Der Vortrag wurde von Prof. Galit Shmueli gehalten, der an der Smith Business School von UMD unterrichtet. Ihr Vortrag basierte auf Recherchen zu einem Artikel mit dem Titel "Predictive vs. …

70 predictive-models

9

Welchen Algorithmus sollte ich verwenden, um Anomalien in Zeitreihen zu erkennen?

Hintergrund Ich arbeite im Network Operations Center. Wir überwachen Computersysteme und deren Leistung. Eine der wichtigsten zu überwachenden Messgrößen ist die Anzahl der Besucher / Kunden, die derzeit mit unseren Servern verbunden sind. Um dies sichtbar zu machen, sammeln wir (Ops-Team) Metriken wie Zeitreihendaten und zeichnen Diagramme. Graphite ermöglicht es …

70 machine-learning time-series python computational-statistics anomaly-detection

1

Wie kann der Datensatz für die Kreuzvalidierung, Lernkurve und Endbewertung aufgeteilt werden?

Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …

70 machine-learning cross-validation python scikit-learn

4

Was ist der Unterschied zwischen den R-Funktionen prcomp und princomp?

Ich habe etwas über Q-Mode- und R-Mode-Hauptkomponentenanalyse (PCA) verglichen ?prcompund ?princompgefunden. Aber ehrlich - ich verstehe es nicht. Kann jemand den Unterschied erklären und vielleicht sogar erklären, wann welche Anwendung anzuwenden ist?

70 r pca

2

Wie funktioniert die Keras-Einbettungsebene?

Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

70 text-mining word-embeddings keras

3

Warum interessieren sich Forscher für neuronale Netze für Epochen?

Eine Epoche in stochastischer Gradientenabnahme ist definiert als ein einzelner Durchgang durch die Daten. Für jedes SGD-Minibatch werden kkk Proben gezogen, der Gradient berechnet und die Parameter aktualisiert. In der Epocheneinstellung werden die Muster ersatzlos gezogen. Dies erscheint jedoch unnötig. Warum nicht jedes SGD-Minibatch so zeichnen, wie kkk zufällig aus …

69 neural-networks deep-learning gradient-descent

4

Wie unterscheidet sich der Korrelationskoeffizient von der Regressionssteigung?

Ich hätte erwartet, dass der Korrelationskoeffizient der gleiche ist wie eine Regressionssteigung (Beta), jedoch sind sie unterschiedlich, wenn man sie nur vergleicht. Wie unterscheiden sie sich - welche unterschiedlichen Informationen geben sie?

69 regression correlation