Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
WARENKORB: Auswahl des besten Prädiktors für die Aufteilung, wenn die Gewinne bei der Abnahme der Verunreinigungen gleich sind?
Meine Frage befasst sich mit Klassifikationsbäumen . Betrachten Sie das folgende Beispiel aus dem Iris-Datensatz: Ich möchte den besten Prädiktor für die erste Aufteilung manuell auswählen. Nach dem CART-Algorithmus ist das beste Merkmal für eine Aufteilung dasjenige, das die Abnahme der Verunreinigung der Partition maximiert, auch Gini-Verstärkung genannt: G i …

1
Ist ein Up- oder Down-Sampling von unausgeglichenen Daten tatsächlich so effektiv? Warum?
Ich höre häufig Up- oder Down-Sampling von Daten, die als Mittel zur Behandlung der Klassifizierung unausgeglichener Daten diskutiert werden. Ich verstehe, dass dies nützlich sein kann, wenn Sie mit einem binären (im Gegensatz zu einem probabilistischen oder Score-basierten) Klassifikator arbeiten und ihn als Black Box behandeln. Daher sind Stichprobenschemata Ihre …


1
Verwenden der richtigen Bewertungsregel, um die Klassenmitgliedschaft anhand der logistischen Regression zu bestimmen
Ich verwende die logistische Regression, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Letztendlich werden diese Wahrscheinlichkeiten in eine Produktionsumgebung gestellt, in der wir uns so weit wie möglich darauf konzentrieren, unsere "Ja" -Vorhersagen zu treffen. Es ist daher nützlich, eine Vorstellung davon zu haben, welche endgültigen "Treffer" oder "Nicht-Treffer" …


2
Erstellen eines Klassifizierungsmodells für streng binäre Daten
Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false. Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist. Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Wie führe ich eine unbeaufsichtigte Random Forest-Klassifizierung mit Breimans Code durch?
Ich arbeite mit Breimans zufälligem Waldcode ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) zur Klassifizierung von Satellitendaten (überwachtes Lernen). Ich verwende einen Trainings- und Testdatensatz mit einer Stichprobengröße von 2000 und einer Variablengröße von 10. Die Daten werden in zwei Klassen, A und B, klassifiziert. Im überwachten Lernmodus arbeitet der Algorithmus mit einem sehr …

1
Mahalanobis-Abstand bei nicht normalen Daten
Der Mahalanobis-Abstand nimmt bei Verwendung zu Klassifizierungszwecken typischerweise eine multivariate Normalverteilung an, und die Abstände vom Schwerpunkt sollten dann einer Verteilung folgen (wobei Freiheitsgrade gleich der Anzahl der Dimensionen / Merkmale sind). Wir können die Wahrscheinlichkeit, dass ein neuer Datenpunkt zur Menge gehört, anhand seiner Mahalanobis-Entfernung berechnen.χ2χ2\chi^2ddd Ich habe Datensätze, …


3
Warum ist svm nicht so gut wie ein Entscheidungsbaum für dieselben Daten?
Ich bin neu im maschinellen Lernen und versuche, mit Scikit-Learn (sklearn) ein Klassifizierungsproblem zu lösen. Sowohl DecisionTree als auch SVM können einen Klassifikator für dieses Problem trainieren. Ich verwende sklearn.ensemble.RandomForestClassifierund sklearn.svm.SVCpasse die gleichen Trainingsdaten an (ca. 500.000 Einträge mit 50 Funktionen pro Eintrag). Der RandomForestClassifier bringt in etwa einer Minute …

3
Cluster in einer binären Sequenz erkennen
Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …

5
Klassifikation vs. Regression zur Vorhersage des Vorzeichens einer kontinuierlichen Antwortvariablen
Angenommen, ich möchte vorhersagen, ob ein Projekt rentabel ist oder nicht. In meinen Beispieldaten ist die Antwortvariable tatsächlich eine kontinuierliche Variable: der $ Gewinn / Verlust des Projekts. Sollte ich eine Klassifizierungstechnik verwenden, da mein letztendliches Ziel nur eine binäre Klassifizierung ist (profitables Projekt oder unrentables Projekt)? Oder sollte ich …

3
Analoga der Sensitivität und Spezifität für kontinuierliche Ergebnisse
Wie kann ich die Sensitivität und Spezifität (oder analoge Maßnahmen) eines kontinuierlichen diagnostischen Tests zur Vorhersage eines kontinuierlichen Ergebnisses (z. B. Blutdruck) berechnen, ohne das Ergebnis zu dichotomisieren? Irgendwelche Ideen? Es scheint, dass Forscher dies mithilfe der Modellierung gemischter Effekte getan haben (siehe Link unten), aber ich bin mit ihrer …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.