Data Science classification

8

Wie setze ich Klassengewichte für unausgeglichene Klassen in Keras?

Ich weiß, dass es in Keras eine Möglichkeit gibt, das class_weightsParameterwörterbuch anzupassen, aber ich konnte kein Beispiel finden. Würde jemand so freundlich sein, einen zur Verfügung zu stellen? Übrigens ist es in diesem Fall die angemessene Praxis, die Minderheitenklasse proportional zu ihrer Unterrepräsentation zu gewichten?

130 classification keras weighted-data

6

Kosinusähnlichkeit versus Punktprodukt als Abstandsmetrik

Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?

41 classification

1

Was ist das beste Keras-Modell für die Klassifizierung mehrerer Klassen?

Ich arbeite an der Forschung, wo Bedarf zum Klassifizieren eines von drei Ereignisse WINNER = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mein aktuelles Modell ist: …

30 python neural-network classification clustering keras

5

Deep Learning vs. Steigungserhöhung: Wann was verwenden?

Ich habe ein Problem mit großen Datenmengen (z. B. 50 Millionen Zeilen und 200 Spalten). Das Dataset besteht aus ungefähr 100 numerischen Spalten und 100 kategorialen Spalten sowie einer Antwortspalte, die ein Binärklassenproblem darstellt. Die Kardinalität jeder der kategorialen Spalten beträgt weniger als 50. Ich möchte a priori wissen, ob …

30 machine-learning classification deep-learning

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Kurzanleitung zum Trainieren stark unausgeglichener Datensätze

Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …

29 machine-learning classification dataset unbalanced-classes

4

Wann soll Random Forest über SVM und umgekehrt verwendet werden?

Wenn würde man verwenden , Random Forestüber , SVMund umgekehrt? Ich verstehe das cross-validationund der Modellvergleich ist ein wichtiger Aspekt bei der Auswahl eines Modells, aber hier möchte ich mehr über Faustregeln und Heuristiken der beiden Methoden erfahren. Kann jemand bitte die Feinheiten, Stärken und Schwächen der Klassifikatoren sowie die …

28 machine-learning classification random-forest svm

4

Welche Algorithmen sollte ich verwenden, um eine Jobklassifizierung basierend auf Lebenslaufdaten durchzuführen?

Beachten Sie, dass ich alles in R mache. Das Problem lautet wie folgt: Grundsätzlich habe ich eine Liste von Lebensläufen. Einige Kandidaten haben bereits Berufserfahrung und andere nicht. Das Ziel dabei ist: Ich möchte sie auf der Grundlage des Texts in ihren Lebensläufen in verschiedene Berufsbereiche einteilen. Ich bin besonders …

28 machine-learning classification nlp text-mining

5

Sind Entscheidungsbaumalgorithmen linear oder nichtlinear?

Kürzlich wurde ein Freund von mir in einem Interview gefragt, ob Entscheidungsbaumalgorithmen lineare oder nichtlineare Algorithmen sind. Ich habe versucht, nach Antworten auf diese Frage zu suchen, konnte aber keine zufriedenstellende Erklärung finden. Kann jemand die Lösung dieser Frage beantworten und erklären? Was sind noch andere Beispiele für nichtlineare Algorithmen …

21 machine-learning classification decision-trees algorithms pac-learning

3

Was ist der Unterschied zwischen Textklassifizierung und Themenmodellen?

Ich kenne den Unterschied zwischen Clustering und Klassifikation beim maschinellen Lernen, verstehe aber nicht den Unterschied zwischen Textklassifikation und Themenmodellierung für Dokumente. Kann ich die Themenmodellierung über Dokumenten verwenden, um ein Thema zu identifizieren? Kann ich Klassifizierungsmethoden verwenden, um den Text in diesen Dokumenten zu klassifizieren?

20 classification text-mining topic-model

2

Textkategorisierung: Kombination verschiedener Funktionen

Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem …

19 machine-learning classification feature-selection logistic-regression information-retrieval

4

Wann würde man die Entfernung von Manhattan im Gegensatz zur euklidischen Entfernung verwenden?

Ich versuche nach einem guten Argument zu suchen, warum man beim maschinellen Lernen die Manhattan-Distanz über die euklidische Distanz verwenden sollte . Das Nächste, was ich bisher zu einem guten Argument gefunden habe, ist diese MIT-Vorlesung . Um 36:15 Uhr sehen Sie auf den Folien die folgende Aussage: "Verwenden Sie …

18 machine-learning classification distance

4

Wie erhält man Genauigkeit, F1, Präzision und Rückruf für ein Keras-Modell?

Ich möchte die Genauigkeit, den Rückruf und den F1-Score für mein binäres KerasClassifier-Modell berechnen, finde aber keine Lösung. Hier ist mein aktueller Code: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', …

18 machine-learning neural-network deep-learning classification keras

5

Beim maschinellen Lernen werden spärliche und dichte Daten zusammengeführt, um die Leistung zu verbessern

Ich habe spärliche Merkmale, die prädiktiv sind, und ich habe einige dichte Merkmale, die auch prädiktiv sind. Ich muss diese Funktionen kombinieren, um die Gesamtleistung des Klassifikators zu verbessern. Wenn ich nun versuche, diese Merkmale zu kombinieren, dominieren die dichten Merkmale tendenziell stärker als die spärlichen Merkmale, wodurch sich die …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

4

Unsymmetrische Multiklassendaten mit XGBoost

Ich habe 3 Klassen mit dieser Verteilung: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Und ich benutze xgboostfür die Klassifizierung. Ich weiß, dass es einen Parameter namens gibt scale_pos_weight. Aber wie wird es bei "Multiclass" -Fällen gehandhabt und wie kann ich es richtig einstellen?

17 classification xgboost multiclass-classification unbalanced-classes

Als «classification» getaggte Fragen