Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

2
Warum funktioniert der Ridge-Regressionsklassifikator für die Textklassifizierung recht gut?
Während eines Experiments zur Textklassifizierung habe ich Ergebnisse gefunden, die die Tests unter den Klassifizierern, die häufiger erwähnt und für Text-Mining-Aufgaben wie SVM, NB, kNN usw. angewendet werden, ständig übertreffen zur Optimierung jedes Klassifikators für diese spezielle Textklassifizierungsaufgabe, mit Ausnahme einiger einfacher Änderungen an den Parametern. Ein solches Ergebnis wurde …

2
Klassifizierung mit Gradient Boosting: So behalten Sie die Vorhersage in [0,1] bei
Die Frage Ich habe Probleme zu verstehen, wie die Vorhersage im Intervall [0,1][0,1][0,1] wenn ich eine binäre Klassifizierung mit Gradient Boosting durchführe. Angenommen, wir arbeiten an einem binären Klassifizierungsproblem und unsere Zielfunktion ist der logarithmische Verlust , wobei ist die Zielvariable und ist unser aktuelles Modell.−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) …


1
Was bedeutet es, dass AUC eine semi-korrekte Bewertungsregel ist?
Eine korrekte Bewertungsregel ist eine Regel, die durch ein "echtes" Modell maximiert wird und kein "Absichern" oder Spielen des Systems erlaubt (absichtlich unterschiedliche Ergebnisse zu melden, wie es der wahre Glaube des Modells ist, um die Bewertung zu verbessern). Der Brier-Score ist korrekt, die Genauigkeit (Anteil richtig klassifiziert) ist nicht …

3
Was ist ein Nullmodell in der Regression und wie hängt es mit der Nullhypothese zusammen?
Was ist ein Nullmodell in der Regression und in welcher Beziehung steht das Nullmodell zur Nullhypothese? Für mein Verständnis bedeutet es Verwenden Sie "Durchschnitt der Antwortvariablen", um eine kontinuierliche Antwortvariable vorherzusagen? Verwendung der "Etikettenverteilung" zur Vorhersage diskreter Antwortvariablen? Wenn dies der Fall ist, scheinen die Verbindungen zwischen der Nullhypothese zu …

2
Stand der Technik im Allgemeinen Lernen aus Daten in '69
Ich versuche den Kontext des berühmten Buches "Perceptrons" von Minsky und Papert aus dem Jahr 1969 zu verstehen, der für neuronale Netze so wichtig ist. Soweit ich weiß, gab es außer Perceptron noch keine anderen generischen überwachten Lernalgorithmen: Entscheidungsbäume wurden erst Ende der 70er Jahre wirklich nützlich, Zufallswälder und SVMs …


1
Ein grundlegendes Markov-Zufallsfeld zum Klassifizieren von Pixeln in einem Bild trainieren
Ich versuche zu lernen, wie man zufällige Markov-Felder verwendet, um Regionen in einem Bild zu segmentieren. Ich verstehe einige der Parameter in der MRF nicht oder weiß nicht, warum die von mir durchgeführte Erwartungsmaximierung manchmal nicht zu einer Lösung konvergiert. Ausgehend von Bayes 'Theorem habe ich , wobei der Grauwert …

2
Trainingsansätze für stark unausgeglichene Datensätze
Ich habe einen stark unausgeglichenen Testdatensatz. Die positive Menge besteht aus 100 Fällen, während die negative Menge aus 1500 Fällen besteht. Auf der Trainingsseite habe ich einen größeren Kandidatenpool: Der positive Trainingssatz umfasst 1200 Fälle und der negative Trainingssatz umfasst 12000 Fälle. Für diese Art von Szenario habe ich mehrere …


3
Rastersuche zur k-fachen Kreuzvalidierung
Ich habe einen Datensatz von 120 Proben in einer 10-fachen Kreuzvalidierungseinstellung. Derzeit wähle ich die Trainingsdaten des ersten Holdouts aus und führe eine 5-fache Kreuzvalidierung durch, um die Werte von Gamma und C durch Gittersuche zu ermitteln. Ich verwende SVM mit RBF-Kernel. Führen Sie diese Rastersuche in den Trainingsdaten jedes …


1
Gibt es in der statistischen Lerntheorie nicht ein Problem der Überanpassung eines Testsatzes?
Betrachten wir das Problem beim Klassifizieren des MNIST-Datasets. Laut der MNIST-Webseite von Yann LeCun , "Ciresan et al." 0,23% Fehlerrate beim MNIST-Test mit Convolutional Neural Network. Lassen Sie uns bezeichnen MNIST Trainingssatz als , MNIST Testset als , die letzte Hypothese sie erhalten unter Verwendung von als , und ihre …

3
Vorschläge für kostensensitives Lernen in einem sehr unausgewogenen Umfeld
Ich habe einen Datensatz mit einigen Millionen Zeilen und ~ 100 Spalten. Ich möchte ungefähr 1% der Beispiele im Datensatz erkennen, die zu einer gemeinsamen Klasse gehören. Ich habe eine minimale Genauigkeitsbeschränkung, aber aufgrund der sehr asymmetrischen Kosten bin ich nicht besonders an einem bestimmten Rückruf interessiert (solange mir nicht …

1
Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.