Als «predictive-models» getaggte Fragen

Vorhersagemodelle sind statistische Modelle, deren Hauptzweck darin besteht, andere Beobachtungen eines Systems optimal vorherzusagen, im Gegensatz zu Modellen, deren Zweck darin besteht, eine bestimmte Hypothese zu testen oder ein Phänomen mechanistisch zu erklären. Vorhersagemodelle legen daher weniger Wert auf Interpretierbarkeit als vielmehr auf Leistung.

1
Wie prognostizieren wir seltene Ereignisse?
Ich arbeite an der Entwicklung eines Vorhersagemodells für Versicherungsrisiken. Bei diesen Modellen handelt es sich um "seltene Ereignisse" wie No-Show-Vorhersage von Fluggesellschaften, Erkennung von Hardwarefehlern usw. Als ich meinen Datensatz vorbereitete, versuchte ich, eine Klassifizierung anzuwenden, konnte jedoch aufgrund des hohen Anteils negativer Fälle keine nützlichen Klassifizierer erhalten . Ich …


7
Vermeidung sozialer Diskriminierung beim Modellbau
Ich habe Fragen, die vom jüngsten Rekrutierungsskandal bei Amazon inspiriert wurden, bei dem ihnen die Diskriminierung von Frauen in ihrem Rekrutierungsprozess vorgeworfen wurde. Mehr Infos hier : Die Spezialisten für maschinelles Lernen von Amazon.com Inc haben ein großes Problem aufgedeckt: Ihre neue Rekrutierungs-Engine mochte keine Frauen. Das Team hatte seit …


3
Entscheidung zwischen einem linearen Regressionsmodell oder einem nichtlinearen Regressionsmodell
Wie sollte man sich zwischen einem linearen oder einem nichtlinearen Regressionsmodell entscheiden? Mein Ziel ist es, Y vorherzusagen. Bei einem einfachen und y- Datensatz könnte ich leicht entscheiden, welches Regressionsmodell durch Zeichnen eines Streudiagramms verwendet werden soll.xxxyyy Bei Multi-Varianten wie und y . Wie kann ich entscheiden, welches Regressionsmodell verwendet …

1
Anpassung an räumliche Daten anpassen
Cross-Posting meiner Frage von Mathoverflow , um einige Statistiken spezifische Hilfe zu finden. Ich studiere einen physikalischen Prozess, der Daten generiert, die gut in zwei Dimensionen mit nicht negativen Werten projizieren. Jeder Prozess hat eine (projizierte) Spur vonxxx- -yyy Punkte - siehe Bild unten. Die Beispielspuren sind blau, ein problematischer …

1
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


3
Statistiken für Online-Dating-Sites
Ich bin gespannt, wie ein Online-Dating-System Umfragedaten verwenden könnte, um Übereinstimmungen zu ermitteln. Angenommen, sie haben Ergebnisdaten aus vergangenen Spielen (z. B. 1 = glücklich verheiratet, 0 = kein 2. Datum). Nehmen wir als nächstes an, sie hätten zwei Präferenzfragen: "Wie sehr genießen Sie Outdoor-Aktivitäten? (1 = stark ablehnen, 5 …


2
Eine "signifikante Variable", die die Vorhersagen außerhalb der Stichprobe nicht verbessert - wie zu interpretieren?
Ich habe eine Frage, von der ich denke, dass sie für viele Benutzer ziemlich einfach sein wird. Ich verwende lineare Regressionsmodelle, um (i) die Beziehung mehrerer erklärender Variablen und meiner Antwortvariablen zu untersuchen und (ii) meine Antwortvariable unter Verwendung der erklärenden Variablen vorherzusagen. Eine bestimmte erklärende Variable X scheint meine …

2
Bewerten Sie die posteriore prädiktive Verteilung in der Bayes'schen linearen Regression
Ich bin verwirrt darüber, wie die posteriore prädiktive Verteilung für die Bayes'sche lineare Regression nach dem hier auf Seite 3 beschriebenen und unten kopierten Grundfall bewertet werden soll. p ( y~∣ y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) Der Grundfall ist …

4
Zeitdiskretes Ereignisverlaufsmodell (Überlebensmodell) in R.
Ich versuche, ein zeitdiskretes Modell in R einzubauen, bin mir aber nicht sicher, wie ich das machen soll. Ich habe gelesen, dass Sie die abhängige Variable in verschiedenen Zeilen organisieren können, eine für jede glmZeitbeobachtung , und die Funktion mit einem Logit- oder Cloglog-Link verwenden können. In diesem Sinne, ich …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
Gaußsche Prozessregression für hochdimensionale Datensätze
Ich wollte nur sehen, ob jemand Erfahrung mit der Anwendung der Gaußschen Prozessregression (GPR) auf hochdimensionale Datensätze hat. Ich untersuche einige der verschiedenen spärlichen GPR-Methoden (z. B. spärliche Pseudo-Eingänge GPR), um herauszufinden, was für hochdimensionale Datensätze funktionieren könnte, bei denen die Auswahl von Merkmalen idealerweise Teil des Parameterauswahlprozesses ist. Vorschläge …

1
R lineare Regression kategoriale Variable "versteckter" Wert
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.