Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

3
Wie wird eine Datenerweiterung und eine Aufteilung der Zugvalidierung durchgeführt?
Ich mache eine Bildklassifizierung mit maschinellem Lernen. Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline. Welches ist die richtige Methode zur Datenerweiterung? …

1
Der Unterschied zwischen logistischer Regression und Support Vector Machines?
Ich weiß, dass die logistische Regression eine Hyperebene findet, die die Trainingsmuster trennt. Ich weiß auch, dass Support-Vektor-Maschinen die Hyperebene mit der maximalen Marge finden. Meine Frage: Ist der Unterschied zwischen logistischer Regression (LR) und Support Vector Machines (SVM), dass LR eine Hyperebene findet, die die Trainingsmuster trennt, während SVM …

1
Maschinelles Lernen Klassifikatoren Big-O oder Komplexität
Um die Leistung eines neuen Klassifikator-Algorithmus zu bewerten, versuche ich, die Genauigkeit und die Komplexität (Big-O in Training und Klassifizierung) zu vergleichen. Aus dem maschinellen Lernen: Nach einer Überprüfung erhalte ich eine vollständige Liste der überwachten Klassifizierer, außerdem eine Genauigkeitstabelle zwischen den Algorithmen und 44 Testprobleme aus dem UCI-Daten-Repository . …

3
Gewichtung neuerer Daten im Random Forest-Modell
Ich trainiere ein Klassifizierungsmodell mit Random Forest, um zwischen 6 Kategorien zu unterscheiden. Meine Transaktionsdaten umfassen ungefähr 60.000 Beobachtungen und 35 Variablen. Hier ist ein Beispiel, wie es ungefähr aussieht. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 …

1
Verwenden von LASSO für zufällige Gesamtstrukturen
Ich möchte eine zufällige Gesamtstruktur mit dem folgenden Verfahren erstellen: Erstellen Sie einen Baum aus zufälligen Stichproben der Daten und Features, und verwenden Sie dabei den Informationsgewinn, um die Aufteilung zu bestimmen Beenden Sie einen Blattknoten, wenn er eine vordefinierte Tiefe überschreitet, ODER wenn eine Teilung zu einer Blattanzahl führen …

1
RandomForest - MDS-Plotinterpretation
Ich habe randomForest verwendet, um 6 Verhaltensweisen von Tieren (z. B. Stehen, Gehen, Schwimmen usw.) anhand von 8 Variablen (unterschiedliche Körperhaltungen und Bewegungen) zu klassifizieren. Der MDSplot im randomForest-Paket gibt diese Ausgabe aus und es treten Probleme bei der Interpretation des Ergebnisses auf. Ich habe eine PCA mit den gleichen …




1
Unterschreitet die Maximierung der Genauigkeit bei über- / unterabgetasteten unsymmetrischen Klassen die Minimierung der Fehlklassifizierungskosten?
Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und Sampling Techniques. Es scheint, dass Sie bei einem Problem mit einer seltenen Klasse …

2
Warum verbessert sich die OOB-Schätzung für zufällige Gesamtstrukturen, wenn die Anzahl der ausgewählten Features verringert wird?
Ich wende einen zufälligen Gesamtstrukturalgorithmus als Klassifikator auf ein Microarray-Dataset an, das in zwei bekannte Gruppen mit Tausenden von Features aufgeteilt ist. Nach dem ersten Start schaue ich mir die Wichtigkeit der Features an und starte den Tree-Algorithmus erneut mit den wichtigsten Features 5, 10 und 20. Ich finde, dass …

3
Können CART-Modelle robust gemacht werden?
Ein Kollege in meinem Büro sagte mir heute: "Baummodelle sind nicht gut, weil sie von extremen Beobachtungen erfasst werden." Eine Suche hier ergab diesen Thread , der im Grunde den Anspruch unterstützt. Was mich zu der Frage führt: In welcher Situation kann ein CART-Modell robust sein und wie wird dies …


1
Caret glmnet vs cv.glmnet
Es scheint eine Menge Verwirrung im Vergleich zwischen der Verwendung von glmnetinside caretzur Suche nach einem optimalen Lambda und der Verwendung cv.glmnetderselben Aufgabe zu geben. Viele Fragen wurden gestellt, zB: Klassifizierungsmodell train.glmnet vs. cv.glmnet? Was ist der richtige Weg, um glmnet mit caret zu verwenden? Quervalidierung von "glmnet" mit "caret" …

1
GAM vs LOESS vs Splines
Kontext : Ich möchte eine Linie in einem Streudiagramm zeichnen, die nicht parametrisch erscheint, daher verwende ich geom_smooth()in ggplotin R. Es gibt automatisch geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.