Als «classification» getaggte Fragen

Eine Instanz des überwachten Lernens, die die Kategorie oder Kategorien identifiziert, zu denen eine neue Instanz des Datensatzes gehört.


6
Kosinusähnlichkeit versus Punktprodukt als Abstandsmetrik
Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?



1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Kurzanleitung zum Trainieren stark unausgeglichener Datensätze
Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …


4
Welche Algorithmen sollte ich verwenden, um eine Jobklassifizierung basierend auf Lebenslaufdaten durchzuführen?
Beachten Sie, dass ich alles in R mache. Das Problem lautet wie folgt: Grundsätzlich habe ich eine Liste von Lebensläufen. Einige Kandidaten haben bereits Berufserfahrung und andere nicht. Das Ziel dabei ist: Ich möchte sie auf der Grundlage des Texts in ihren Lebensläufen in verschiedene Berufsbereiche einteilen. Ich bin besonders …

5
Sind Entscheidungsbaumalgorithmen linear oder nichtlinear?
Kürzlich wurde ein Freund von mir in einem Interview gefragt, ob Entscheidungsbaumalgorithmen lineare oder nichtlineare Algorithmen sind. Ich habe versucht, nach Antworten auf diese Frage zu suchen, konnte aber keine zufriedenstellende Erklärung finden. Kann jemand die Lösung dieser Frage beantworten und erklären? Was sind noch andere Beispiele für nichtlineare Algorithmen …

3
Was ist der Unterschied zwischen Textklassifizierung und Themenmodellen?
Ich kenne den Unterschied zwischen Clustering und Klassifikation beim maschinellen Lernen, verstehe aber nicht den Unterschied zwischen Textklassifikation und Themenmodellierung für Dokumente. Kann ich die Themenmodellierung über Dokumenten verwenden, um ein Thema zu identifizieren? Kann ich Klassifizierungsmethoden verwenden, um den Text in diesen Dokumenten zu klassifizieren?

2
Textkategorisierung: Kombination verschiedener Funktionen
Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem …


4
Wie erhält man Genauigkeit, F1, Präzision und Rückruf für ein Keras-Modell?
Ich möchte die Genauigkeit, den Rückruf und den F1-Score für mein binäres KerasClassifier-Modell berechnen, finde aber keine Lösung. Hier ist mein aktueller Code: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', …

5
Beim maschinellen Lernen werden spärliche und dichte Daten zusammengeführt, um die Leistung zu verbessern
Ich habe spärliche Merkmale, die prädiktiv sind, und ich habe einige dichte Merkmale, die auch prädiktiv sind. Ich muss diese Funktionen kombinieren, um die Gesamtleistung des Klassifikators zu verbessern. Wenn ich nun versuche, diese Merkmale zu kombinieren, dominieren die dichten Merkmale tendenziell stärker als die spärlichen Merkmale, wodurch sich die …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.