Als «outliers» getaggte Fragen

Ein Ausreißer ist eine Beobachtung, die in Bezug auf eine einfache Charakterisierung eines Datensatzes ungewöhnlich oder nicht gut beschrieben erscheint. Eine unangenehme Möglichkeit besteht darin, dass diese Daten aus einer anderen Population stammen als die, die untersucht werden soll.




5
Automatische Schwellenwertbestimmung zur Erkennung von Anomalien
Ich arbeite mit einer Zeitreihe von Anomalie-Scores (Hintergrund ist die Anomalieerkennung in Computernetzwerken). Jede Minute erhalte ich einen Anomalie-Score der mir sagt, wie "unerwartet" oder abnormal der aktuelle Status des Netzwerks ist. Je höher die Punktzahl, desto abnormaler ist der aktuelle Zustand. Scores nahe 5 sind theoretisch möglich, treten jedoch …

2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
Ausreißer auf einem Streudiagramm finden
Ich habe eine Reihe von Datenpunkten, die auf einem Ort sitzen und einem Muster folgen sollen, aber es gibt einige Streupunkte vom Hauptort, die in meiner endgültigen Analyse Unsicherheit verursachen. Ich möchte einen ordentlichen Ort erhalten, um ihn später für meine Analyse anzuwenden. Die blauen Punkte sind mehr oder weniger …


4
Gibt es eine Version des Korrelationskoeffizienten, die für Ausreißer weniger empfindlich ist?
Der Korrelationskoeffizient ist: r =∑k(xk- -x¯) (yk- -yk¯)sxsyn - 1r=∑k(xk- -x¯)(yk- -yk¯)sxsyn- -1 r = \frac{\sum_k \frac{(x_k - \bar{x}) (y_k - \bar{y_k})}{s_x s_y}}{n-1} Der Stichprobenmittelwert und die Standardabweichung der Stichprobe sind empfindlich gegenüber Ausreißern. Auch der Mechanismus, wo, r =∑kZeugkn - 1r=∑kZeugkn- -1 r = \frac{\sum_k \text{stuff}_k}{n -1} ist auch …

2
Was sind "Fringeliers"?
Ich habe kürzlich einen Rezensenten-Kommentar von einer Journal-Einreichung erhalten, in der ich darum gebeten wurde berichten, wie ich mit Ausreißern und Randgruppen umgegangen bin . Ich hatte noch nichts von dem Begriff "Fringeliers" gehört und als ich googelte, gab es einige Artikel, aber keine präzise Definition. Daher dachte ich, es …

2
Probleme mit der Ausreißererkennung
In einem Blogbeitrag schreibt Andrew Gelman : Die schrittweise Regression ist eines dieser Dinge, wie die Erkennung von Ausreißern und Kreisdiagramme, die bei Nicht-Statistikern beliebt zu sein scheinen, von Statistikern jedoch als Scherz angesehen werden. Ich verstehe den Verweis auf Kreisdiagramme, aber warum wird laut Gelman die Statistik der Ausreißer …

1
Ausreißererkennung in Beta-Distributionen
Angenommen, ich habe eine große Stichprobe von Werten in [0,1][0,1][0,1] . Ich möchte die zugrunde liegende Beta(α,β)Beta(α,β)\text{Beta}(\alpha, \beta) -Verteilung schätzen . Der Großteil der Proben stammt aus dieser angenommenen Beta(α,β)Beta(α,β)\text{Beta}(\alpha, \beta) -Verteilung, während der Rest Ausreißer sind, die ich bei der Schätzung von αα\alpha und ignorieren möchte ββ\beta. Was ist …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


3
Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?
Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.