Als «predictive-models» getaggte Fragen

Vorhersagemodelle sind statistische Modelle, deren Hauptzweck darin besteht, andere Beobachtungen eines Systems optimal vorherzusagen, im Gegensatz zu Modellen, deren Zweck darin besteht, eine bestimmte Hypothese zu testen oder ein Phänomen mechanistisch zu erklären. Vorhersagemodelle legen daher weniger Wert auf Interpretierbarkeit als vielmehr auf Leistung.

2
Ist dies die neueste Regressionsmethode?
Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln. Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere Regressionsmodelle wie (verallgemeinerte) lineare Regression, Zufallswald-, KNN-, NN- und SVM-Regressionsmodelle zu erstellen …


6
Sollte Sparsamkeit wirklich noch der Goldstandard sein?
Nur ein Gedanke: Sparsame Modelle waren bei der Modellauswahl immer die Standardanwendung, aber inwieweit ist dieser Ansatz veraltet? Ich bin gespannt, wie sehr unsere Neigung zur Sparsamkeit ein Relikt aus einer Zeit von Abakus und Rechenschiebern (oder, im Ernst, nicht modernen Computern) ist. Die heutige Rechenleistung ermöglicht es uns, immer …

3
Was ist die Hauptursache für das Problem des Klassenungleichgewichts?
Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …

3
ob Indikator / Binär / Dummy-Prädiktoren für LASSO neu skaliert werden sollen
Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu tun? ZB einige angewandte Beispiele aus derselben (ausgezeichneten) …

2
Warum sind p-Werte nach einer schrittweisen Auswahl irreführend?
Betrachten wir zum Beispiel ein lineares Regressionsmodell. Ich habe gehört, dass es beim Data Mining nach einer schrittweisen Auswahl auf der Grundlage des AIC-Kriteriums irreführend ist, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist. Ich habe gehört, dass man alle Variablen, die im …

1
Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Wann kann Korrelation ohne Ursache nützlich sein?
Ein Lieblingsspruch vieler Statistiker lautet: "Korrelation impliziert keine Kausalität." Dies ist sicherlich wahr, aber eine Sache, die hier impliziert zu sein scheint, ist, dass Korrelation wenig oder keinen Wert hat. Ist das wahr? Ist es sinnlos zu wissen, dass zwei Variablen miteinander korrelieren? Ich kann mir nicht vorstellen, dass dies …

4
Vorhersage mit kontinuierlichen und kategorialen Funktionen
Einige Vorhersagemodelltechniken sind eher für den Umgang mit kontinuierlichen Prädiktoren ausgelegt, während andere für den Umgang mit kategorialen oder diskreten Variablen besser geeignet sind. Natürlich gibt es Techniken, um einen Typ in einen anderen umzuwandeln (Diskretisierung, Dummy-Variablen usw.). Gibt es jedoch Vorhersagemodelltechniken, mit denen beide Eingabetypen gleichzeitig verarbeitet werden können, …

1
Gibt es einen Algorithmus, der Klassifikation und Regression kombiniert?
Ich frage mich, ob es einen Algorithmus gibt, der gleichzeitig Klassifizierung und Regression durchführen kann. Zum Beispiel möchte ich, dass der Algorithmus einen Klassifikator lernt und gleichzeitig in jedem Etikett ein kontinuierliches Ziel lernt. Daher hat es für jedes Trainingsbeispiel eine kategoriale Bezeichnung und einen kontinuierlichen Wert. Ich könnte zuerst …

2
Sind gemischte Modelle als Vorhersagemodelle nützlich?
Ich bin etwas verwirrt über die Vorteile gemischter Modelle in Bezug auf die prädiktive Modellierung. Da Vorhersagemodelle in der Regel dazu gedacht sind, Werte bisher unbekannter Beobachtungen vorherzusagen, erscheint es mir offensichtlich, dass ein gemischtes Modell nur durch seine Fähigkeit nützlich sein kann, Vorhersagen auf Bevölkerungsebene zu liefern (dh ohne …

3
Cross-Validierung oder Bootstrapping zur Bewertung der Klassifizierungsleistung?
Welche Stichprobenmethode eignet sich am besten, um die Leistung eines Klassifikators für einen bestimmten Datensatz zu bewerten und mit anderen Klassifikatoren zu vergleichen? Kreuzvalidierung scheint Standard zu sein, aber ich habe gelesen, dass Methoden wie .632-Bootstrap eine bessere Wahl sind. Als Follow-up: Hat die Auswahl der Leistungsmetrik Einfluss auf die …




Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.