Statistiken und Big Data

3

Empfehlung für eine begutachtete Open-Source-Zeitschrift?

Ich habe ein Manuskript über eine Bootstrap-Methode zum Testen von Hypothesen von einem Mittelwert, und ich möchte es zur Veröffentlichung senden, aber ich habe ein moralisches Dilemma. Ich habe mich dem Protest gegen Elsevier wegen ihrer unethischen Geschäftspraktiken angeschlossen, und das Nachlesen des gesamten Themas hat mich wirklich dazu veranlasst, …

30 hypothesis-testing bootstrap journals

3

Woher wissen, ob eine Zeitreihe stationär oder instationär ist?

Ich bin mit R, suchte ich auf Google und erfuhr , dass kpss.test(), PP.test()und adf.test()verwendet werden , um Stationarität der Zeitreihe zu kennen. Aber ich bin kein Statistiker, der seine Ergebnisse interpretieren kann > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value …

30 r time-series stationarity augmented-dickey-fuller kpss-test

9

Was ist der Unterschied zwischen einem Schätzer und einer Statistik?

Ich habe erfahren, dass eine Statistik ein Attribut ist, das Sie aus Stichproben erhalten können. Wenn Sie viele Stichproben gleicher Größe nehmen, dieses Attribut für alle berechnen und das PDF-Dokument zeichnen, erhalten Sie die Verteilung des entsprechenden Attributs oder die Verteilung der entsprechenden Statistiken. Ich habe auch gehört, dass Statistiken …

30 terminology estimators definition

4

Optimierung für Precision-Recall-Kurven bei Klassenungleichgewicht

Ich habe eine Klassifizierungsaufgabe mit einer Reihe von Prädiktoren (von denen einer der informativste ist), und ich verwende das MARS- Modell, um meinen Klassifizierer zu konstruieren (ich interessiere mich für ein einfaches Modell und würde glms zur Veranschaulichung verwenden) auch gut). Jetzt habe ich ein großes Klassenungleichgewicht in den Trainingsdaten …

30 machine-learning roc precision-recall unbalanced-classes data-visualization

3

Wie gut skaliert R auf Textklassifizierungsaufgaben? [geschlossen]

Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht. Es ist wahrscheinlich, dass ich auf hochdimensionale Daten stoße …

30 r machine-learning svm text-mining random-forest

4

Überprüfung, ob zwei Poisson-Proben den gleichen Mittelwert haben

Dies ist eine elementare Frage, aber ich konnte die Antwort nicht finden. Ich habe zwei Messungen: n1 Ereignisse zum Zeitpunkt t1 und n2 Ereignisse zum Zeitpunkt t2, die beide durch Poisson-Prozesse mit möglicherweise unterschiedlichen Lambda-Werten erzeugt werden. Dies ist eigentlich aus einem Nachrichtenartikel, der im Wesentlichen behauptet, dass seit die …

30 hypothesis-testing poisson-distribution

6

Liniendiagramm hat zu viele Linien, gibt es eine bessere Lösung?

Ich versuche, die Anzahl der Aktionen von Benutzern (in diesem Fall "Gefällt mir") im Laufe der Zeit grafisch darzustellen. Ich habe also "Anzahl der Aktionen" als meine y-Achse, meine x-Achse ist die Zeit (Wochen) und jede Zeile repräsentiert einen Benutzer. Mein Problem ist, dass ich diese Daten für einen Satz …

30 r data-visualization

3

Visualisierung der Schnittpunkte vieler Mengen

Gibt es ein Visualisierungsmodell, mit dem die Überschneidung vieler Mengen dargestellt werden kann? Ich denke etwas wie Venn-Diagramme, aber das könnte sich irgendwie besser für eine größere Anzahl von Sätzen wie 10 oder mehr eignen. Wikipedia zeigt einige höher eingestellte Venn-Diagramme, aber auch die 4 eingestellten Diagramme sind sehr viel …

30 data-visualization dataset

6

Wann sind Konfidenzintervalle sinnvoll?

Wenn ich richtig verstehe, ist ein Konfidenzintervall eines Parameters ein Intervall, das mit einer Methode erstellt wurde, die Intervalle liefert, die den wahren Wert für einen bestimmten Anteil von Stichproben enthalten. Das "Vertrauen" bezieht sich also eher auf die Methode als auf das Intervall, das ich aus einer bestimmten Stichprobe …

30 confidence-interval interpretation

2

Interpretation von Biplots in der Hauptkomponentenanalyse

Ich bin auf dieses nette Tutorial gestoßen: Ein Handbuch für statistische Analysen mit R. Kapitel 13. Hauptkomponentenanalyse: Der olympische Siebenkampf zur Durchführung von PCA in R-Sprache. Ich verstehe die Interpretation von Abbildung 13.3 nicht: Ich zeichne also den ersten Eigenvektor gegen den zweiten Eigenvektor. Was bedeutet das? Angenommen, der dem …

30 r pca data-visualization interpretation biplot

3

Wie kann man die Wahrscheinlichkeit genau definieren?

Die Wahrscheinlichkeit kann auf verschiedene Arten definiert werden, zum Beispiel: die Funktion LLL von Θ × XΘ×X\Theta\times{\cal X} die Karten ( θ , x )(θ,x)(\theta,x) zu L ( θ | x )L(θ∣x)L(\theta \mid x) , das heißt L : Θ × X → RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} . die Zufallsfunktion …

30 mathematical-statistics likelihood likelihood-ratio parametric

8

Welche Theorien sollte jeder Statistiker kennen?

Ich denke darüber aus einer sehr einfachen Perspektive mit minimalen Anforderungen nach. Was sind die wichtigsten Theorien, die ein (nicht akademischer) Statistiker in der Branche regelmäßig kennen, verstehen und anwenden sollte? Ein großer Gedanke ist das Gesetz der großen Zahlen . Was ist für die Anwendung der statistischen Theorie auf …

30 theory careers law-of-large-numbers

2

Was ist der Unterschied zwischen dem Shapiro-Wilk-Normalitätstest und dem Kolmogorov-Smirnov-Normalitätstest?

Was ist der Unterschied zwischen dem Shapiro-Wilk-Normalitätstest und dem Kolmogorov-Smirnov-Normalitätstest? Wann werden sich die Ergebnisse dieser beiden Methoden unterscheiden?

30 distributions statistical-significance normality-assumption kolmogorov-smirnov

6

Schätzung des binomialen Konfidenzintervalls - warum ist es nicht symmetrisch?

Ich habe den folgenden r-Code verwendet, um die Konfidenzintervalle eines Binomialanteils zu schätzen, da ich verstehe, dass dies eine "Leistungsberechnung" ersetzt, wenn Empfänger-Betriebskennliniendesigns entworfen werden, bei denen die Erkennung von Krankheiten in einer Population untersucht wird. n ist 150, und wir glauben, dass die Krankheit in der Bevölkerung zu 25% …

30 confidence-interval binomial

1

Wie wirkt sich die Zentrierung auf die PCA aus (für SVD und Eigenzerlegung)?

Welchen Unterschied macht die Zentrierung (oder die Aufhebung der Bedeutung) Ihrer Daten für PCA? Ich habe gehört, dass dies die Mathematik erleichtert oder verhindert, dass der erste PC von den Variablen dominiert wird, aber ich habe das Gefühl, dass ich das Konzept noch nicht richtig verstanden habe. Zum Beispiel die …

30 r pca svd eigenvalues centering