Statistiken und Big Data

5

Wie berechne ich eine gewichtete Standardabweichung? In Excel?

Ich habe also einen Datensatz mit folgenden Prozentsätzen: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Ich möchte die Standardabweichung der Prozentsätze ermitteln, aber nach dem Datenvolumen gewichtet. dh der erste und der letzte …

29 standard-deviation excel weighted-mean

4

Fisher's Exact Test in Kontingenztabellen größer als 2x2

Mir wurde beigebracht, Fisher's Exact Test nur in Kontingenztabellen anzuwenden, die 2x2 waren. Fragen: Hat sich Fisher jemals vorgestellt, dass dieser Test für Tische mit einer Größe von mehr als 2 × 2 verwendet werden soll? (Ich weiß, dass er den Test erfunden hat, als er zu erraten versuchte, ob …

29 spss stata contingency-tables fishers-exact

3

Ist der Kolmogorov-Smirnov-Test mit diskreten Verteilungen gültig?

Ich vergleiche eine Stichprobe und überprüfe, ob sie sich als diskrete Verteilung verteilt. Ich bin mir jedoch nicht sicher, ob Kolmogorov-Smirnov zutrifft. Wikipedia scheint das nicht zu implizieren. Wenn nicht, wie kann ich die Verteilung der Stichprobe testen?

29 hypothesis-testing discrete-data kolmogorov-smirnov

3

Wie führt man eine orthogonale Regression (kleinste Quadrate) über PCA durch?

Ich benutze immer lm()in R, um eine lineare Regression von auf durchzuführen . Diese Funktion gibt einen Koeffizienten so dassyyyxxxββ\betay=βx.y=βx.y = \beta x. Heute habe ich etwas über die kleinsten Fehlerquadrate gelernt und diese princomp()Funktion (Hauptkomponentenanalyse, PCA) kann verwendet werden, um sie auszuführen. Es sollte gut für mich sein (genauer). …

29 r pca least-squares deming-regression total-least-squares

6

Variablenauswahlverfahren für die binäre Klassifikation

Welche Variablen- / Merkmalsauswahl bevorzugen Sie für die binäre Klassifizierung, wenn der Lernsatz viel mehr Variablen / Merkmale als Beobachtungen enthält? Ziel ist es, zu diskutieren, durch welches Merkmalauswahlverfahren der Klassifizierungsfehler am besten reduziert wird. Wir können Notationen fix für Konsistenz: für , lassen Sie { x i 1 , …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

11

Statistische Podcasts

Welche Podcasts beziehen sich auf statistische Analysen? Ich habe einige Audioaufnahmen von Vorlesungen auf ITunes U gefunden, aber mir sind keine statistischen Podcasts bekannt. Am nächsten ist mir ein Podcast über Operations Research, The Science of Better, bekannt . Es geht um statistische Fragen, aber nicht speziell um eine statistische …

29 references

6

Wie kann ich die Fairness eines d20 testen?

Wie kann ich die Fairness eines zwanzigseitigen Würfels testen (d20)? Offensichtlich würde ich die Werteverteilung mit einer Gleichverteilung vergleichen. Ich erinnere mich vage an einen Chi-Quadrat-Test im College. Wie kann ich das anwenden, um zu sehen, ob ein Würfel fair ist?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

6

Test auf finite Varianz?

Ist es möglich, die Endlichkeit (oder Existenz) der Varianz einer Zufallsvariablen anhand einer Stichprobe zu testen? Als Null wäre entweder {die Varianz existiert und ist endlich} oder {die Varianz existiert nicht / ist unendlich} akzeptabel. Philosophisch (und rechnerisch) scheint dies sehr seltsam zu sein, da es keinen Unterschied zwischen einer …

29 hypothesis-testing variance central-limit-theorem

1

Bootstrap-Vorhersageintervall

Gibt es eine Bootstrap-Technik, mit der Vorhersageintervalle für Punktvorhersagen berechnet werden können, die z. B. aus einer linearen Regression oder einer anderen Regressionsmethode (k-nächster Nachbar, Regressionsbäume usw.) stammen? Irgendwie habe ich das Gefühl, dass die manchmal vorgeschlagene Methode, die Punktvorhersage nur zu booten (siehe z. B. Vorhersageintervalle für die kNN-Regression …

29 bootstrap prediction-interval

1

Was sind die Mängel des Mean Absolute Percentage Error (MAPE)?

Der mittlere absolute prozentuale Fehler ( Mape ) ist ein gängiges Genauigkeits- oder Fehlermaß für Zeitreihen oder andere Vorhersagen. MAPE = 100n∑t = 1n| EINt- Ft|EINt% ,MAPE=100n∑t=1n|EINt-Ft|EINt%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, Dabei sind Istwerte und F t entsprechende Vorhersagen oder Vorhersagen.EINtEINtA_tFtFtF_t Die MAPE ist ein Prozentsatz, sodass wir sie leicht zwischen …

29 accuracy mape

4

McFaddens Pseudo-R2-Interpretation

Ich habe ein binäres logistisches Regressionsmodell mit einem McFadden-Pseudo-R-Quadrat von 0,192 mit einer abhängigen Variablen namens Zahlung (1 = Zahlung und 0 = keine Zahlung). Wie ist die Interpretation dieses Pseudo-R-Quadrats? Handelt es sich um einen relativen Vergleich für verschachtelte Modelle (z. B. hat ein 6-Variablen-Modell ein McFadden-Pseudo-R-Quadrat von 0,192, …

29 regression self-study logistic

1

Fehlermetriken zur Kreuzvalidierung von Poisson-Modellen

Ich überprüfe ein Modell, das versucht, eine Zählung vorherzusagen. Wenn dies ein Problem mit der binären Klassifizierung wäre, würde ich die Out-of-Fold-AUC berechnen, und wenn dies ein Regressionsproblem wäre, würde ich den Out-of-Fold-RMSE oder MAE berechnen. Welche Fehlermetriken kann ich für ein Poisson-Modell verwenden, um die "Genauigkeit" der Vorhersagen außerhalb …

29 cross-validation poisson-distribution count-data deviance scoring-rules

4

Wie kann man die Ergebnisse von lm () in eine Gleichung übersetzen?

Wir können lm()einen Wert vorhersagen, benötigen aber in einigen Fällen noch die Gleichung der Ergebnisformel. Fügen Sie beispielsweise die Gleichung zu Diagrammen hinzu.

29 r regression lm

3

Polynom-Regression mit Scikit-Learn

Ich versuche, Scikit-Learn für die Polynom-Regression zu verwenden. Nach meinem Verständnis ist die polynomielle Regression ein Sonderfall der linearen Regression. Ich habe gehofft, dass vielleicht eines der generalisierten linearen Modelle von scikit für Polynome höherer Ordnung parametrisiert werden kann, aber ich sehe keine Möglichkeit, dies zu tun. Ich habe es …

29 regression machine-learning large-data polynomial scikit-learn

4

Wie interpretieren Sie RMSLE (Root Mean Squared Logarithmic Error)?

Ich habe einen maschinellen Lernwettbewerb durchgeführt, bei dem RMSLE (Root Mean Squared Logarithmic Error) verwendet wird, um die Leistung zu bewerten und den Verkaufspreis einer Gerätekategorie vorherzusagen. Das Problem ist, dass ich nicht sicher bin, wie ich den Erfolg meines Endergebnisses interpretieren soll. Wenn ich zum Beispiel einen Effektivwert von …

29 regression machine-learning interpretation measurement-error theory