Statistiken und Big Data predictive-models

2

Ist dies die neueste Regressionsmethode?

Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln. Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere Regressionsmodelle wie (verallgemeinerte) lineare Regression, Zufallswald-, KNN-, NN- und SVM-Regressionsmodelle zu erstellen …

33 predictive-models boosting bagging stacking model-averaging

1

Relative variable Bedeutung für das Boosting

Ich suche nach einer Erklärung, wie die relative variable Wichtigkeit in gradientenverstärkten Bäumen berechnet wird, die nicht allzu allgemein / simpel ist wie: Die Kennzahlen basieren auf der Häufigkeit, mit der eine Variable zum Teilen ausgewählt wurde, gewichtet durch die quadratische Verbesserung des Modells als Ergebnis jeder Teilung und gemittelt …

33 machine-learning data-mining predictive-models cart boosting

6

Sollte Sparsamkeit wirklich noch der Goldstandard sein?

Nur ein Gedanke: Sparsame Modelle waren bei der Modellauswahl immer die Standardanwendung, aber inwieweit ist dieser Ansatz veraltet? Ich bin gespannt, wie sehr unsere Neigung zur Sparsamkeit ein Relikt aus einer Zeit von Abakus und Rechenschiebern (oder, im Ernst, nicht modernen Computern) ist. Die heutige Rechenleistung ermöglicht es uns, immer …

31 predictive-models model-selection model

3

Was ist die Hauptursache für das Problem des Klassenungleichgewichts?

Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …

30 classification predictive-models unbalanced-classes scoring-rules

3

ob Indikator / Binär / Dummy-Prädiktoren für LASSO neu skaliert werden sollen

Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu tun? ZB einige angewandte Beispiele aus derselben (ausgezeichneten) …

30 predictive-models model-selection lasso standardization multidimensional-scaling

2

Warum sind p-Werte nach einer schrittweisen Auswahl irreführend?

Betrachten wir zum Beispiel ein lineares Regressionsmodell. Ich habe gehört, dass es beim Data Mining nach einer schrittweisen Auswahl auf der Grundlage des AIC-Kriteriums irreführend ist, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist. Ich habe gehört, dass man alle Variablen, die im …

28 multiple-regression predictive-models data-mining stepwise-regression

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Wann kann Korrelation ohne Ursache nützlich sein?

Ein Lieblingsspruch vieler Statistiker lautet: "Korrelation impliziert keine Kausalität." Dies ist sicherlich wahr, aber eine Sache, die hier impliziert zu sein scheint, ist, dass Korrelation wenig oder keinen Wert hat. Ist das wahr? Ist es sinnlos zu wissen, dass zwei Variablen miteinander korrelieren? Ich kann mir nicht vorstellen, dass dies …

27 correlation predictive-models causality

4

Vorhersage mit kontinuierlichen und kategorialen Funktionen

Einige Vorhersagemodelltechniken sind eher für den Umgang mit kontinuierlichen Prädiktoren ausgelegt, während andere für den Umgang mit kategorialen oder diskreten Variablen besser geeignet sind. Natürlich gibt es Techniken, um einen Typ in einen anderen umzuwandeln (Diskretisierung, Dummy-Variablen usw.). Gibt es jedoch Vorhersagemodelltechniken, mit denen beide Eingabetypen gleichzeitig verarbeitet werden können, …

26 classification predictive-models categorical-data continuous-data discrete-data

1

Gibt es einen Algorithmus, der Klassifikation und Regression kombiniert?

Ich frage mich, ob es einen Algorithmus gibt, der gleichzeitig Klassifizierung und Regression durchführen kann. Zum Beispiel möchte ich, dass der Algorithmus einen Klassifikator lernt und gleichzeitig in jedem Etikett ein kontinuierliches Ziel lernt. Daher hat es für jedes Trainingsbeispiel eine kategoriale Bezeichnung und einen kontinuierlichen Wert. Ich könnte zuerst …

25 regression machine-learning classification predictive-models finite-mixture-model

2

Sind gemischte Modelle als Vorhersagemodelle nützlich?

Ich bin etwas verwirrt über die Vorteile gemischter Modelle in Bezug auf die prädiktive Modellierung. Da Vorhersagemodelle in der Regel dazu gedacht sind, Werte bisher unbekannter Beobachtungen vorherzusagen, erscheint es mir offensichtlich, dass ein gemischtes Modell nur durch seine Fähigkeit nützlich sein kann, Vorhersagen auf Bevölkerungsebene zu liefern (dh ohne …

24 mixed-model predictive-models

3

Cross-Validierung oder Bootstrapping zur Bewertung der Klassifizierungsleistung?

Welche Stichprobenmethode eignet sich am besten, um die Leistung eines Klassifikators für einen bestimmten Datensatz zu bewerten und mit anderen Klassifikatoren zu vergleichen? Kreuzvalidierung scheint Standard zu sein, aber ich habe gelesen, dass Methoden wie .632-Bootstrap eine bessere Wahl sind. Als Follow-up: Hat die Auswahl der Leistungsmetrik Einfluss auf die …

24 machine-learning classification predictive-models cross-validation bootstrap

3

Wie kann ich die Sklearn-Verwirrungsmatrix interpretieren?

Ich verwende eine Verwirrungsmatrix , um die Leistung meines Klassifikators zu überprüfen. Ich benutze Scikit-Learn und bin etwas verwirrt. Wie kann ich das Ergebnis von interpretieren? from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, …

24 predictive-models prediction confusion-matrix

4

Welches Problem lösen Oversampling, Undersampling und SMOTE?

In einer kürzlich gut erhaltenen Frage fragt Tim, wann unausgeglichene Daten wirklich ein Problem beim maschinellen Lernen sind . Die Prämisse der Frage ist, dass es eine Menge Literatur zum maschinellen Lernen gibt, die sich mit dem Klassengleichgewicht und dem Problem unausgeglichener Klassen befasst . Die Idee ist, dass Datensätze …

24 machine-learning classification predictive-models unbalanced-classes

5

Ist eine explorative Datenanalyse bei der Durchführung einer rein prädiktiven Modellierung wichtig?

Wozu dient eine explorative Datenanalyse (EDA) beim Erstellen eines Vorhersagemodells mithilfe von Techniken des maschinellen Lernens? Ist es in Ordnung, direkt zur Feature-Generierung zu springen und Ihre Modelle zu erstellen? Wie wichtig sind deskriptive Statistiken in der EDA?

23 machine-learning predictive-models descriptive-statistics eda

Als «predictive-models» getaggte Fragen