Als «unbalanced-classes» getaggte Fragen

Daten, die in diskreten Kategorien oder * Klassen * organisiert sind, können für bestimmte Analysen Probleme bereiten, wenn die Anzahl der Beobachtungen ( ), die zu jeder Klasse gehören, über Klassen hinweg nicht konstant ist. Klassen mit ungleichem sind * unausgeglichen *. nn

1
ROC-Kurven für unsymmetrische Datensätze
Betrachten Sie eine Eingangsmatrix und einen Binärausgang y .X.XXyyy Eine übliche Methode zur Messung der Leistung eines Klassifikators ist die Verwendung von ROC-Kurven. In einem ROC-Diagramm ist die Diagonale das Ergebnis, das von einem zufälligen Klassifikator erhalten würde. Im Falle einer unsymmetrischen Ausgabe die Leistung eines Zufallsklassifizierers verbessert werden, indem …


3
Hoher Rückruf - Geringe Präzision für unausgeglichenen Datensatz
Ich habe derzeit Probleme beim Analysieren eines Tweet-Datasets mit Support-Vektor-Maschinen. Das Problem ist, dass ich einen unausgeglichenen Binärklassen-Trainingssatz habe (5: 2); Dies wird voraussichtlich proportional zur tatsächlichen Klassenverteilung sein. Bei der Vorhersage erhalte ich eine geringe Genauigkeit (0,47) für die Minderheitsklasse im Validierungssatz. Rückruf ist 0,88. Ich habe versucht, mehrere …


1
Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Überabtastung mit kategorialen Variablen
Ich möchte eine Kombination aus Über- und Unterabtastung durchführen, um meinen Datensatz mit ungefähr 4000 Kunden in zwei Gruppen auszugleichen, wobei eine der Gruppen einen Anteil von ungefähr 15% hat. Ich habe mir SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) und ROSE ( http://cran.r-project.org/web/packages/ROSE/) angesehen. ROSE.pdf ), aber beide erzeugen neue synthetische Proben …


1
SMOTE löst einen Fehler für ein Ungleichgewichtsproblem mit mehreren Klassen aus
Ich versuche, SMOTE zu verwenden, um das Ungleichgewicht in meinem Klassifizierungsproblem für mehrere Klassen zu korrigieren. Obwohl SMOTE gemäß dem SMOTE-Hilfedokument perfekt für das Iris-Dataset funktioniert, funktioniert es für ein ähnliches Dataset nicht. So sehen meine Daten aus. Beachten Sie, dass es drei Klassen mit den Werten 1, 2, 3 …


2
Trainingsdaten sind unausgewogen - aber sollte mein Validierungssatz auch sein?
Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …


1
Ist ein Up- oder Down-Sampling von unausgeglichenen Daten tatsächlich so effektiv? Warum?
Ich höre häufig Up- oder Down-Sampling von Daten, die als Mittel zur Behandlung der Klassifizierung unausgeglichener Daten diskutiert werden. Ich verstehe, dass dies nützlich sein kann, wenn Sie mit einem binären (im Gegensatz zu einem probabilistischen oder Score-basierten) Klassifikator arbeiten und ihn als Black Box behandeln. Daher sind Stichprobenschemata Ihre …

2
Wie kann man die in King und Zeng (2001) beschriebenen Korrekturen für seltene Ereignisse vornehmen?
Ich habe einen Datensatz mit einer binären (Überlebens-) Antwortvariablen und 3 erklärenden Variablen ( A= 3 Ebenen, B= 3 Ebenen, C= 6 Ebenen). In diesem Datensatz sind die Daten mit 100 Personen pro ABCKategorie ausgewogen . Ich studierte bereits die Wirkung von diesen A, Bund CVariablen , die mit diesem …

2
Ist ein großer Unterschied in der Stichprobengröße zusammen mit einem Unterschied in den Varianzen für einen t-Test (oder Permutationstest) von Bedeutung?
Ich habe eine sehr verwirrende Frage. Ich habe Daten und möchte numerische Werte zwischen Männern und Frauen vergleichen. Es gibt einen großen Unterschied zwischen diesen beiden Gruppen: Die Anzahl der Männer beträgt 34, während die Anzahl der Frauen 310 beträgt und die Varianzen nicht gleich sind. Soweit ich weiß, kann …

1
A priori Auswahl der SVM-Klassengewichte
Ich erinnere mich, dass ich irgendwo gesehen / gelesen habe, dass es für SVMs mit mehreren Klassen und unausgeglichenen Daten eine Möglichkeit gab, die Klassengewichte aus den Trainingsdaten zu bestimmen (anstatt aus der X-Validierung). Weiß jemand, was die Methode ist oder aus welchem ​​Papier sie stammt? Vielen Dank

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.