Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.


3
Wie ist Naive Bayes ein linearer Klassifikator?
Ich habe den anderen Thread hier gesehen, aber ich glaube nicht, dass die Antwort die eigentliche Frage befriedigt hat. Was ich immer wieder gelesen habe, ist, dass Naive Bayes ein linearer Klassifikator (z. B. hier ) ist (so dass er eine lineare Entscheidungsgrenze zeichnet), der die Log Odds-Demonstration verwendet. Ich …

2
Relative Bedeutung einer Reihe von Prädiktoren in einer zufälligen Waldklassifikation in R
Ich möchte die relative Bedeutung von Variablensätzen für ein randomForestKlassifizierungsmodell in R bestimmen . Die importanceFunktion liefert die MeanDecreaseGiniMetrik für jeden einzelnen Prädiktor. Ist es so einfach, diese über jeden Prädiktor in einem Satz zu summieren? Beispielsweise: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- …

1
Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …

3
Was ist die Hauptursache für das Problem des Klassenungleichgewichts?
Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …


7
Was sind die Zweige der Statistik?
In der Mathematik gibt es Zweige wie Algebra, Analyse, Topologie usw. Im maschinellen Lernen gibt es überwachtes, unbeaufsichtigtes und bestärkendes Lernen. Innerhalb jedes dieser Zweige gibt es feinere Zweige, die die Methoden weiter unterteilen. Ich habe Probleme, eine Parallele zur Statistik zu ziehen. Was wären die Hauptzweige der Statistik (und …

4
Wann sollte ich Klassen in einem Trainingsdatensatz ausgleichen?
Ich hatte einen Online-Kurs, in dem ich erfuhr, dass unausgeglichene Klassen in den Trainingsdaten zu Problemen führen können, da Klassifizierungsalgorithmen für die Mehrheitsregel gelten, da sie gute Ergebnisse liefern, wenn die Unausgeglichenheit zu groß ist. In einer Aufgabe musste man die Daten durch Unterabtastung der Mehrheitsklasse ausgleichen. In diesem Blog …

4
Fläche unter der Kurve des ROC im Verhältnis zur Gesamtgenauigkeit
Ich bin etwas verwirrt über die Area Under Curve (AUC) von ROC und die allgemeine Genauigkeit. Wird die AUC proportional zur Gesamtgenauigkeit sein? Mit anderen Worten, wenn wir eine größere Gesamtgenauigkeit haben, werden wir definitiv eine größere AUC bekommen? Oder sind sie per definitionem positiv korreliert? Wenn sie positiv korreliert …


6
Variablenauswahlverfahren für die binäre Klassifikation
Welche Variablen- / Merkmalsauswahl bevorzugen Sie für die binäre Klassifizierung, wenn der Lernsatz viel mehr Variablen / Merkmale als Beobachtungen enthält? Ziel ist es, zu diskutieren, durch welches Merkmalauswahlverfahren der Klassifizierungsfehler am besten reduziert wird. Wir können Notationen fix für Konsistenz: für , lassen Sie { x i 1 , …

2
Wie lässt sich die Leistung von Klassifikatoren für maschinelles Lernen statistisch vergleichen?
Basierend auf der geschätzten Klassifizierungsgenauigkeit möchte ich testen, ob ein Klassifizierer statistisch besser als ein anderer Klassifizierer ist. Für jeden Klassifikator wähle ich zufällig eine Trainings- und Teststichprobe aus dem Basissatz aus, trainiere das Modell und teste das Modell. Ich mache das zehnmal für jeden Klassifikator. Ich habe daher zehn …

3
Warum ist die AUC für einen weniger genauen Klassifikator höher als für einen genaueren?
Ich habe zwei Klassifikatoren A: naives Bayes'sches Netzwerk B: Baum (einfach verbunden) Bayesianisches Netzwerk In Bezug auf Genauigkeit und andere Maßnahmen schneidet A vergleichsweise schlechter ab als B. Wenn ich jedoch die R-Pakete ROCR und AUC für die ROC-Analyse verwende, stellt sich heraus, dass die AUC für A höher ist …

1
Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.