Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren




3
Wie führt man eine orthogonale Regression (kleinste Quadrate) über PCA durch?
Ich benutze immer lm()in R, um eine lineare Regression von auf durchzuführen . Diese Funktion gibt einen Koeffizienten so dassyyyxxxββ\betay=βx.y=βx.y = \beta x. Heute habe ich etwas über die kleinsten Fehlerquadrate gelernt und diese princomp()Funktion (Hauptkomponentenanalyse, PCA) kann verwendet werden, um sie auszuführen. Es sollte gut für mich sein (genauer). …

6
Variablenauswahlverfahren für die binäre Klassifikation
Welche Variablen- / Merkmalsauswahl bevorzugen Sie für die binäre Klassifizierung, wenn der Lernsatz viel mehr Variablen / Merkmale als Beobachtungen enthält? Ziel ist es, zu diskutieren, durch welches Merkmalauswahlverfahren der Klassifizierungsfehler am besten reduziert wird. Wir können Notationen fix für Konsistenz: für , lassen Sie { x i 1 , …

11
Statistische Podcasts
Welche Podcasts beziehen sich auf statistische Analysen? Ich habe einige Audioaufnahmen von Vorlesungen auf ITunes U gefunden, aber mir sind keine statistischen Podcasts bekannt. Am nächsten ist mir ein Podcast über Operations Research, The Science of Better, bekannt . Es geht um statistische Fragen, aber nicht speziell um eine statistische …
29 references 


6
Test auf finite Varianz?
Ist es möglich, die Endlichkeit (oder Existenz) der Varianz einer Zufallsvariablen anhand einer Stichprobe zu testen? Als Null wäre entweder {die Varianz existiert und ist endlich} oder {die Varianz existiert nicht / ist unendlich} akzeptabel. Philosophisch (und rechnerisch) scheint dies sehr seltsam zu sein, da es keinen Unterschied zwischen einer …

1
Bootstrap-Vorhersageintervall
Gibt es eine Bootstrap-Technik, mit der Vorhersageintervalle für Punktvorhersagen berechnet werden können, die z. B. aus einer linearen Regression oder einer anderen Regressionsmethode (k-nächster Nachbar, Regressionsbäume usw.) stammen? Irgendwie habe ich das Gefühl, dass die manchmal vorgeschlagene Methode, die Punktvorhersage nur zu booten (siehe z. B. Vorhersageintervalle für die kNN-Regression …

1
Was sind die Mängel des Mean Absolute Percentage Error (MAPE)?
Der mittlere absolute prozentuale Fehler ( Mape ) ist ein gängiges Genauigkeits- oder Fehlermaß für Zeitreihen oder andere Vorhersagen. MAPE = 100n∑t = 1n| EINt- Ft|EINt% ,MAPE=100n∑t=1n|EINt-Ft|EINt%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, Dabei sind Istwerte und F t entsprechende Vorhersagen oder Vorhersagen.EINtEINtA_tFtFtF_t Die MAPE ist ein Prozentsatz, sodass wir sie leicht zwischen …
29 accuracy  mape 

4
McFaddens Pseudo-R2-Interpretation
Ich habe ein binäres logistisches Regressionsmodell mit einem McFadden-Pseudo-R-Quadrat von 0,192 mit einer abhängigen Variablen namens Zahlung (1 = Zahlung und 0 = keine Zahlung). Wie ist die Interpretation dieses Pseudo-R-Quadrats? Handelt es sich um einen relativen Vergleich für verschachtelte Modelle (z. B. hat ein 6-Variablen-Modell ein McFadden-Pseudo-R-Quadrat von 0,192, …

1
Fehlermetriken zur Kreuzvalidierung von Poisson-Modellen
Ich überprüfe ein Modell, das versucht, eine Zählung vorherzusagen. Wenn dies ein Problem mit der binären Klassifizierung wäre, würde ich die Out-of-Fold-AUC berechnen, und wenn dies ein Regressionsproblem wäre, würde ich den Out-of-Fold-RMSE oder MAE berechnen. Welche Fehlermetriken kann ich für ein Poisson-Modell verwenden, um die "Genauigkeit" der Vorhersagen außerhalb …


3
Polynom-Regression mit Scikit-Learn
Ich versuche, Scikit-Learn für die Polynom-Regression zu verwenden. Nach meinem Verständnis ist die polynomielle Regression ein Sonderfall der linearen Regression. Ich habe gehofft, dass vielleicht eines der generalisierten linearen Modelle von scikit für Polynome höherer Ordnung parametrisiert werden kann, aber ich sehe keine Möglichkeit, dies zu tun. Ich habe es …

4
Wie interpretieren Sie RMSLE (Root Mean Squared Logarithmic Error)?
Ich habe einen maschinellen Lernwettbewerb durchgeführt, bei dem RMSLE (Root Mean Squared Logarithmic Error) verwendet wird, um die Leistung zu bewerten und den Verkaufspreis einer Gerätekategorie vorherzusagen. Das Problem ist, dass ich nicht sicher bin, wie ich den Erfolg meines Endergebnisses interpretieren soll. Wenn ich zum Beispiel einen Effektivwert von …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.