Als «accuracy» getaggte Fragen

Die Genauigkeit eines Schätzers ist der Grad der Nähe der Schätzungen zum wahren Wert. Für einen Klassifikator ist Genauigkeit der Anteil der korrekten Klassifikationen. (Diese zweite Verwendung ist keine bewährte Methode. Einen Link zu weiteren Informationen finden Sie im Tag-Wiki.)

1
Ist Genauigkeit eine falsche Bewertungsregel in einer binären Klassifizierungseinstellung?
Ich habe vor kurzem über die richtigen Bewertungsregeln für Wahrscheinlichkeitsklassifikatoren gelernt. In mehreren Beiträgen auf dieser Website wurde betont, dass Genauigkeit eine falsche Bewertungsregel ist und nicht zur Bewertung der Qualität von Vorhersagen verwendet werden sollte, die von einem probabilistischen Modell wie der logistischen Regression generiert werden. Einige wissenschaftliche Arbeiten, …



1
Warum ist die Merkmalsauswahl für Klassifizierungsaufgaben wichtig?
Ich lerne etwas über die Auswahl von Funktionen. Ich kann sehen, warum es für den Modellbau wichtig und nützlich wäre. Aber konzentrieren wir uns auf überwachte Lernaufgaben (Klassifizierungsaufgaben). Warum ist die Merkmalsauswahl für Klassifizierungsaufgaben wichtig? Ich sehe viel Literatur über die Auswahl von Funktionen und deren Verwendung für überwachtes Lernen, …


1
Bewertung von Klassifikatoren: Lernkurven gegen ROC-Kurven
Ich möchte 2 verschiedene Klassifizierer für ein Problem der Textklassifizierung in mehreren Klassen vergleichen, die große Trainingsdatensätze verwenden. Ich bezweifle, ob ich ROC-Kurven oder Lernkurven verwenden sollte, um die beiden Klassifikatoren zu vergleichen. Einerseits sind Lernkurven hilfreich, um die Größe des Trainingsdatensatzes zu bestimmen, da Sie die Größe des Datensatzes …


4
Interpretation des AIC-Wertes
Typische AIC-Werte, die ich für Logistikmodelle gesehen habe, sind Tausende, mindestens Hunderte. zB auf http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ beträgt der AIC 727,39 Während immer gesagt wird, dass AIC nur zum Vergleichen von Modellen verwendet werden sollte, wollte ich verstehen, was ein bestimmter AIC-Wert bedeutet. Gemäß der Formel ist A ichC.= - 2 log( …

4
Berechnung der Prognosegenauigkeit
Wir verwenden STL (R-Implementierung) zur Vorhersage von Zeitreihendaten. Jeden Tag führen wir tägliche Prognosen durch. Wir möchten Prognosewerte mit realen Werten vergleichen und durchschnittliche Abweichungen ermitteln. Zum Beispiel haben wir Prognosen für morgen erstellt und Prognosepunkte erhalten. Wir möchten diese Prognosepunkte mit realen Daten vergleichen, die wir morgen erhalten. Mir …

2
Ein Beispiel für die Verwendung der Genauigkeit als Ergebnismaß führt zu einer falschen Schlussfolgerung
Ich untersuche verschiedene Leistungsmessungen für Vorhersagemodelle. Es wurde viel über Probleme bei der Verwendung von Genauigkeit geschrieben, anstatt über etwas Kontinuierlicheres, um die Modellleistung zu bewerten. Frank Harrell http://www.fharrell.com/post/class-damage/ liefert ein Beispiel, wenn das Hinzufügen einer informativen Variablen zu einem Modell zu einem Rückgang der Genauigkeit, einer eindeutig eingängigen und …

1
Wie kann man Laien davon abhalten, ungenaue Schlussfolgerungen über ihre Daten zu ziehen?
Ich arbeite als Datenanalyst, hauptsächlich in SQL, und versorge interne Kunden mit Betriebsdaten. Ich mache selten statistische Analysen. In letzter Zeit kamen interne Kunden mit Daten aus schlecht gestalteten Projekten (keine Kontrollgruppe, keine geplante Methodik usw.) zu mir und baten mich, Daten zu ihren Ergebnissen zu analysieren, damit sie ihre …

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
Warum nicht das R-Quadrat verwenden, um die Prognosegenauigkeit zu messen?
Warum in der Literatur normalerweise die gängigen Genauigkeitsmaße wie MAD, MSE, RMSE, MAPE ... verwendet werden. Warum nicht den (Bestimmungskoeffizient) verwenden?R2R2R^2 Ich habe über den Unterschied nachgedacht: Mit der MSE kann ich den Durchschnitt der Prognose vergleichen. Und wenn ich benutze, bekomme ich Informationen über die Varianz.R2R2R^2 Warum wird der …


1
Sollte die Vorhersagegenauigkeit oder alternativ die Minimierung der MSE überdacht werden?
Seit Breiman ist die Maximierung der Vorhersagegenauigkeit zu einer Art Goldstandard für die prädiktive Modellierung geworden . Dass es sich zu diesem Status entwickelt hat, ist verständlich: Es kann "optimiert" werden, lässt sich leicht über k-fache Proben kalibrieren und ist größtenteils eine konsistente Statistik für die interne Modellvalidierung. Allzu oft …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.