Ich weiß, dass es in Keras eine Möglichkeit gibt, das class_weightsParameterwörterbuch anzupassen, aber ich konnte kein Beispiel finden. Würde jemand so freundlich sein, einen zur Verfügung zu stellen? Übrigens ist es in diesem Fall die angemessene Praxis, die Minderheitenklasse proportional zu ihrer Unterrepräsentation zu gewichten?
Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?
Ich arbeite an der Forschung, wo Bedarf zum Klassifizieren eines von drei Ereignisse WINNER = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mein aktuelles Modell ist: …
Ich habe ein Problem mit großen Datenmengen (z. B. 50 Millionen Zeilen und 200 Spalten). Das Dataset besteht aus ungefähr 100 numerischen Spalten und 100 kategorialen Spalten sowie einer Antwortspalte, die ein Binärklassenproblem darstellt. Die Kardinalität jeder der kategorialen Spalten beträgt weniger als 50. Ich möchte a priori wissen, ob …
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …
Wenn würde man verwenden , Random Forestüber , SVMund umgekehrt? Ich verstehe das cross-validationund der Modellvergleich ist ein wichtiger Aspekt bei der Auswahl eines Modells, aber hier möchte ich mehr über Faustregeln und Heuristiken der beiden Methoden erfahren. Kann jemand bitte die Feinheiten, Stärken und Schwächen der Klassifikatoren sowie die …
Beachten Sie, dass ich alles in R mache. Das Problem lautet wie folgt: Grundsätzlich habe ich eine Liste von Lebensläufen. Einige Kandidaten haben bereits Berufserfahrung und andere nicht. Das Ziel dabei ist: Ich möchte sie auf der Grundlage des Texts in ihren Lebensläufen in verschiedene Berufsbereiche einteilen. Ich bin besonders …
Kürzlich wurde ein Freund von mir in einem Interview gefragt, ob Entscheidungsbaumalgorithmen lineare oder nichtlineare Algorithmen sind. Ich habe versucht, nach Antworten auf diese Frage zu suchen, konnte aber keine zufriedenstellende Erklärung finden. Kann jemand die Lösung dieser Frage beantworten und erklären? Was sind noch andere Beispiele für nichtlineare Algorithmen …
Ich kenne den Unterschied zwischen Clustering und Klassifikation beim maschinellen Lernen, verstehe aber nicht den Unterschied zwischen Textklassifikation und Themenmodellierung für Dokumente. Kann ich die Themenmodellierung über Dokumenten verwenden, um ein Thema zu identifizieren? Kann ich Klassifizierungsmethoden verwenden, um den Text in diesen Dokumenten zu klassifizieren?
Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem …
Ich versuche nach einem guten Argument zu suchen, warum man beim maschinellen Lernen die Manhattan-Distanz über die euklidische Distanz verwenden sollte . Das Nächste, was ich bisher zu einem guten Argument gefunden habe, ist diese MIT-Vorlesung . Um 36:15 Uhr sehen Sie auf den Folien die folgende Aussage: "Verwenden Sie …
Ich möchte die Genauigkeit, den Rückruf und den F1-Score für mein binäres KerasClassifier-Modell berechnen, finde aber keine Lösung. Hier ist mein aktueller Code: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', …
Ich habe spärliche Merkmale, die prädiktiv sind, und ich habe einige dichte Merkmale, die auch prädiktiv sind. Ich muss diese Funktionen kombinieren, um die Gesamtleistung des Klassifikators zu verbessern. Wenn ich nun versuche, diese Merkmale zu kombinieren, dominieren die dichten Merkmale tendenziell stärker als die spärlichen Merkmale, wodurch sich die …
Ich habe 3 Klassen mit dieser Verteilung: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Und ich benutze xgboostfür die Klassifizierung. Ich weiß, dass es einen Parameter namens gibt scale_pos_weight. Aber wie wird es bei "Multiclass" -Fällen gehandhabt und wie kann ich es richtig einstellen?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.