Als «algorithms» getaggte Fragen

Eine eindeutige Liste von Rechenschritten, die erforderlich sind, um eine Lösung für eine Klasse von Problemen zu finden.


4
So probieren Sie, wenn Sie die Verteilung nicht kennen
Ich bin ziemlich neu in der Statistik (eine Handvoll Uni-Kurse für Anfänger) und habe mich über Stichproben aus unbekannten Distributionen gewundert. Wenn Sie keine Ahnung von der zugrunde liegenden Verteilung haben, gibt es eine Möglichkeit, zu "garantieren", dass Sie eine repräsentative Stichprobe erhalten? Beispiel zur Veranschaulichung: Angenommen, Sie versuchen, die …

3
Apriori-Algorithmus im Klartext?
Ich habe einen Wiki-Artikel über Apriori gelesen. Ich habe Probleme beim Verstehen des Pflaumen- und Join-Schritts. Kann mir jemand erklären, wie der Apriori-Algorithmus in einfachen Worten funktioniert (so dass Anfänger wie ich ihn leicht verstehen können)? Es ist gut, wenn jemand den damit verbundenen schrittweisen Prozess erklärt.

3
Radfahren im k-means-Algorithmus
Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.

3
Platzsparendes Clustering
Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …


2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
Unterschied zwischen simuliertem Tempern und mehrfachem Gier
Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …


3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
Eine einfachere Methode zur Berechnung des exponentiell gewichteten gleitenden Durchschnitts?
Vorgeschlagene Methode: Bei einer Zeitreihe möchte ich einen gewichteten gleitenden Durchschnitt mit einem Mittelungsfenster von Punkten berechnen , wobei die Gewichtungen neuere Werte gegenüber älteren Werten bevorzugen. N.xichxix_iN.NN Bei der Auswahl der Gewichte verwende ich die bekannte Tatsache, dass eine geometrische Reihe gegen 1 konvergiert, dh , vorausgesetzt, es werden …


4
FA: Auswahl der Rotationsmatrix basierend auf „Einfachen Strukturkriterien“
Eines der wichtigsten Probleme bei der Verwendung der Faktoranalyse ist ihre Interpretation. Die Faktoranalyse verwendet häufig eine Faktorrotation, um ihre Interpretation zu verbessern. Nach einer zufriedenstellenden Drehung hat die gedrehte Faktorladematrix L ' die gleiche Fähigkeit, die Korrelationsmatrix darzustellen, und sie kann anstelle der nicht gedrehten Matrix L als Faktorladematrix …

3
Interpolieren von gruppierten Daten, sodass der Bin-Durchschnitt erhalten bleibt
Angenommen, ich habe diese gruppierten Daten als Eingabe. Der Durchschnittswert wird für jedes aufeinanderfolgende Intervall angegeben. Nehmen wir zur Vereinfachung an, dass die Abtastdichte in jedem Bin einheitlich ist.y¯ichy¯i\bar{y}_iΔxichΔxi\Delta x_i Jetzt möchte ich die zugrunde liegende Funktion ( ) schätzen, dh ich möchte in der Lage sein, vernünftige Schätzungen von …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.