Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.



1
GBM-Paket vs. Caret mit GBM
Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

2
Wann ist eine logistische Regression sinnvoll?
Ich unterrichte mich derzeit selbst in der Klassifizierung und beschäftige mich speziell mit drei Methoden: Unterstützung von Vektormaschinen, neuronalen Netzwerken und logistischer Regression. Ich versuche zu verstehen, warum die logistische Regression jemals besser abschneiden würde als die beiden anderen. Nach meinem Verständnis der logistischen Regression besteht die Idee darin, eine …

2
Warum wird bei der Textsprachenidentifikation n-Gramm anstelle von Wörtern verwendet?
In zwei weit verbreiteten Spracherkennungsbibliotheken, Compact Language Detector 2 für C ++ und Language Detector für Java, verwendeten beide (zeichenbasierte) n-Gramme, um Textfunktionen zu extrahieren. Warum wird ein Wortsack (einzelnes Wort / Wörterbuch) nicht verwendet, und was sind die Vor- und Nachteile von Wortsack und n-Gramm? Was sind auch einige …

2
Wie berechnet man Fisher-Kriterium-Gewichte?
Ich studiere Mustererkennung und maschinelles Lernen und bin auf die folgende Frage gestoßen. Betrachten Sie ein Zweiklassen-Klassifizierungsproblem mit gleicher Wahrscheinlichkeit für die vorherige Klasse P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} und die Verteilung der Instanzen in den einzelnen Klassen von p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Wie trainiere ich HMMs für die Klassifizierung?
Daher verstehe ich, dass der Standardansatz beim Trainieren von HMMs für die Klassifizierung wie folgt lautet: Teilen Sie Ihre Datensätze in die Datensätze für jede Klasse auf Trainiere ein HMM pro Klasse Vergleichen Sie im Testset die Wahrscheinlichkeit, mit der jedes Modell die einzelnen Fenster klassifiziert Aber wie trainiere ich …


2
Warum verringert die Erhöhung der Anzahl der Funktionen die Leistung?
Ich versuche, eine Vorstellung davon zu bekommen, warum das Erhöhen der Anzahl von Funktionen die Leistung verringern kann. Ich verwende derzeit einen LDA-Klassifikator, der bei bestimmten Funktionen eine bessere zweigeteilte Leistung erbringt, bei mehr Funktionen jedoch eine schlechtere Leistung. Meine Klassifikationsgenauigkeit wird mit einem geschichteten 10-fachen xval durchgeführt. Gibt es …


2
PCA und zufällige Wälder
Für einen kürzlich durchgeführten Kaggle-Wettbewerb habe ich (manuell) 10 zusätzliche Funktionen für mein Trainingsset definiert, die dann zum Trainieren eines zufälligen Waldklassifikators verwendet werden. Ich habe mich entschieden, PCA für das Dataset mit den neuen Funktionen auszuführen, um zu sehen, wie sie miteinander verglichen werden. Ich fand heraus, dass ~ …


1
Beeinträchtigt ein geringer Trainingsumfang eine SVM?
Ich versuche, Nachrichten mithilfe einer SVM in verschiedene Kategorien zu klassifizieren. Ich habe eine Liste der gewünschten Wörter / Symbole aus dem Trainingsset zusammengestellt. Für jeden Vektor, der eine Nachricht darstellt, setze ich die entsprechende Zeile auf, 1wenn das Wort vorhanden ist: "Corpus" ist: [Mary, Little, Lamm, Star, Twinkle] erste …

2
Anwenden von maschinellem Lernen für die DDoS-Filterung
In Stanfords Maschinellem Lernkurs erwähnte Andrew Ng die Anwendung von ML in der IT. Einige Zeit später, als ich DDoS von mittlerer Größe (ca. 20.000 Bots) auf unserer Site bekam, entschied ich mich, mit einem einfachen Neural Network-Klassifikator dagegen anzukämpfen. Ich habe dieses Python-Skript in ungefähr 30 Minuten geschrieben: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.