Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

3
Warum schneiden naive Bayes-Klassifikatoren so gut ab?
Naive Bayes-Klassifikatoren sind eine beliebte Wahl für Klassifizierungsprobleme. Dafür gibt es viele Gründe, darunter: "Zeitgeist" - weit verbreitetes Bewusstsein nach dem Erfolg von Spam-Filtern vor etwa zehn Jahren Einfach zu schreiben Das Klassifikatormodell ist schnell zu erstellen Das Modell kann mit neuen Trainingsdaten geändert werden, ohne dass das Modell neu …

2
ImageNet: Was ist die Top-1- und Top-5-Fehlerrate?
In ImageNet-Klassifizierungspapieren sind die Fehlerquoten Top 1 und Top 5 wichtige Maßeinheiten für den Erfolg einiger Lösungen. Doch wie hoch sind diese Fehlerquoten? In der ImageNet-Klassifikation mit Deep Convolutional Neural Networks von Krizhevsky et al. Jede Lösung, die auf einer einzelnen CNN basiert (Seite 7), hat keine Top-5-Fehlerraten, während die …

3
Wenden Sie Worteinbettungen auf das gesamte Dokument an, um einen Feature-Vektor zu erhalten
Wie verwende ich eine Worteinbettung, um ein Dokument einem Feature-Vektor zuzuordnen, der für die Verwendung mit überwachtem Lernen geeignet ist? Ein Wort Einbettungs bildet jedes Wort auf einen Vektor v ∈ R d , wobei d einige nicht allzu große Anzahl (zB 500). Beliebte Wort Einbettungen sind word2vec und Handschuh …

6
Verbessere die Klassifizierung mit vielen kategorialen Variablen
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …

3
SVM, Überanpassung, Fluch der Dimensionalität
Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß. Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt. Zweitens bin ich beim Studium der Überanpassung …

2
Logistische Regression vs. LDA als Zwei-Klassen-Klassifizierer
Ich versuche, mich mit dem statistischen Unterschied zwischen linearer Diskriminanzanalyse und logistischer Regression auseinanderzusetzen . Wenn ich richtig verstehe , sagt LDA für ein Zweiklassen- Klassifizierungsproblem zwei Normaldichtefunktionen (eine für jede Klasse) voraus, die eine lineare Grenze dort bilden, wo sie sich schneiden, während die logistische Regression nur die ungerade …

3
PCA und der Zug / Test Split
Ich habe einen Datensatz, für den ich mehrere Sätze von binären Bezeichnungen habe. Für jeden Etikettensatz trainiere ich einen Klassifikator und bewerte ihn durch Kreuzvalidierung. Ich möchte die Dimensionalität mithilfe der Hauptkomponentenanalyse (PCA) reduzieren. Meine Frage ist: Ist es möglich, die PCA einmal für den gesamten Datensatz durchzuführen und dann …

3
Wie werden OOB und Verwirrungsmatrix für zufällige Gesamtstrukturen interpretiert?
Ich habe von jemandem ein R-Skript zum Ausführen eines zufälligen Gesamtstrukturmodells erhalten. Ich habe es geändert und mit einigen Mitarbeiterdaten ausgeführt. Wir versuchen, freiwillige Trennungen vorherzusagen. Hier einige zusätzliche Informationen: Dies ist ein Klassifizierungsmodell, bei dem 0 = Mitarbeiter verblieben, 1 = Mitarbeiter gekündigt wurde. Wir sehen uns derzeit nur …

5
Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]
Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)? Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die …

3
Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?
In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …

3
Interpretation der mittleren Abnahme der Genauigkeit und der mittleren Abnahme des GINI in Random Forest-Modellen
Ich habe einige Schwierigkeiten zu verstehen, wie die Ausgabe mit variabler Wichtigkeit aus dem Random Forest-Paket interpretiert wird. Die mittlere Abnahme der Genauigkeit wird normalerweise als "die Abnahme der Modellgenauigkeit durch Permutieren der Werte in jedem Merkmal" beschrieben. Handelt es sich um eine Aussage über das gesamte Feature oder um …

3
Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?
Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
Was ist mit "schwacher Lernender" gemeint?
Kann mir jemand sagen, was mit dem Ausdruck "schwacher Lernender" gemeint ist? Soll es eine schwache Hypothese sein? Ich bin verwirrt über die Beziehung zwischen einem schwachen Lernenden und einem schwachen Klassifikator. Sind beide gleich oder gibt es einen Unterschied? In dem Adaboost-Algorithmus T=10. Was ist damit gemeint? Warum wählen …


6
Statistische Klassifizierung von Texten
Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.