Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

2
Die Unterschiede zwischen SVM und logistischer Regression
Ich lese darüber SVMund habe mich dem Punkt gestellt, dass nicht kernelisierte SVMsnichts anderes als lineare Trennzeichen sind. Ist daher der einzige Unterschied zwischen einer SVMund einer logistischen Regression das Kriterium für die Wahl der Grenze? Anscheinend SVMwählt der maximale Margenklassifikator und die logistische Regression ist diejenige, die den cross-entropyVerlust …

1
Zuggenauigkeit vs Testgenauigkeit vs Verwirrungsmatrix
Nachdem ich mein Vorhersagemodell mit Random Forest entwickelt habe, erhalte ich die folgenden Metriken: Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] Dies ist das Ergebnis dieses Codes: training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() …






2
Word2Vec-Einbettungen mit TF-IDF
Wenn Sie das word2vec-Modell trainieren (z. B. mit gensim), geben Sie eine Liste mit Wörtern / Sätzen an. Es scheint jedoch keine Möglichkeit zu geben, Gewichte für die Wörter anzugeben, die beispielsweise mit TF-IDF berechnet wurden. Ist es üblich, die Wortvektor-Einbettungen mit dem zugehörigen TF-IDF-Gewicht zu multiplizieren? Oder kann word2vec …

1
So zeichnen Sie zwei Spalten eines einzelnen DataFrame auf der Y-Achse
Ich habe zwei DataFrames (Action, Comedy). Aktion enthält zwei Spalten (Jahr, Bewertung) Bewertungsspalten enthalten durchschnittliche Bewertung in Bezug auf das Jahr. Comedy Dataframe enthält dieselben zwei Spalten mit unterschiedlichen Mittelwerten. Ich füge beide Datenrahmen in einem total_year Datenrahmen zusammen Ausgabe von total_year Jetzt möchte ich total_year in einem Liniendiagramm darstellen, …

2
Warum normalisieren wir die reduzierten Belohnungen, wenn wir das Lernen zur Verstärkung von Richtliniengradienten durchführen?
Ich versuche, den Policy-Gradient- Ansatz zur Lösung des Cartpole- Problems zu verstehen . Bei diesem Ansatz drücken wir den Gradienten des Verlusts für jeden Parameter unserer Richtlinie als Erwartung der Summe der Gradienten unseres Richtliniengradienten für alle Aktionen in einer Sequenz aus, gewichtet mit der Summe der abgezinsten Belohnungen in …


3
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Wie kann ich eine Klassifizierung mit nicht festgelegten kategorialen Daten durchführen?
Ich habe ein Klassifizierungsproblem mit kategorialen und numerischen Daten. Das Problem, mit dem ich konfrontiert bin, ist, dass meine kategorialen Daten nicht festgelegt sind. Dies bedeutet, dass der neue Kandidat, dessen Bezeichnung ich vorhersagen möchte, möglicherweise eine neue Kategorie hat, die zuvor nicht beobachtet wurde. Wenn zum Beispiel meine kategorialen …

3
XGboost - Wahl nach Modell
Ich verwende XGboost , um eine Zielvariable mit zwei Klassen für Versicherungsansprüche vorherzusagen. Ich habe ein Modell (Training mit Kreuzvalidierung, Optimierung von Hyperparametern usw.), das ich auf einem anderen Datensatz ausführe. Meine Frage ist : Gibt es eine Möglichkeit zu wissen, warum ein bestimmter Anspruch auf eine Klasse betroffen ist, …
10 xgboost 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.