Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

2
Was ist die effizienteste Methode zur Optimierung von Hyperparametern beim Scikit-Lernen?
Eine Übersicht über den Hyperparameter-Optimierungsprozess in scikit-learn finden Sie hier . Eine umfassende Rastersuche findet den optimalen Satz von Hyperparametern für ein Modell. Der Nachteil ist, dass die umfassende Rastersuche langsam ist. Die zufällige Suche ist schneller als die Rastersuche, weist jedoch eine unnötig hohe Varianz auf. Es gibt auch …

2
Entspricht max_depth in scikit dem Beschneiden von Entscheidungsbäumen?
Ich habe den Klassifikator analysiert, der mithilfe eines Entscheidungsbaums erstellt wurde. Im Entscheidungsbaum von scikit gibt es einen Optimierungsparameter namens max_depth . Entspricht dies dem Beschneiden eines Entscheidungsbaums? Wenn nicht, wie könnte ich einen Entscheidungsbaum mit Scikit beschneiden? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

2
Ist eine Chargennormalisierung für eine ReLU-Aktivierungsfunktion sinnvoll?
Die Chargennormalisierung wird in diesem Artikel als Normalisierung der Eingabe in eine Aktivierungsfunktion mit den Skalierungs- und Verschiebungsvariablen und β beschrieben . In diesem Artikel wird hauptsächlich die Verwendung der Sigmoid-Aktivierungsfunktion beschrieben, was sinnvoll ist. Es scheint mir jedoch, dass das Einspeisen einer Eingabe aus der durch die Chargennormalisierung erzeugten …

3
Beziehung zwischen Faltung in Mathematik und CNN
Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 


3
Ist eine Funktionsauswahl erforderlich?
Ich möchte ein maschinelles Lernmodell wie Random Forest, Gradient Boosting oder SVM für meinen Datensatz ausführen. Mein Datensatz enthält mehr als 200 Prädiktorvariablen, und meine Zielklassen sind binäre Variablen. Muss ich die Funktionsauswahl vor der Modellanpassung ausführen? Beeinflusst es die Modellleistung erheblich oder gibt es keinen großen Unterschied, wenn ich …

3


2
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

3
Wie kann ich Text unter Berücksichtigung der Wortreihenfolge klassifizieren, anstatt nur einen Bag-of-Word-Ansatz zu verwenden?
Ich habe einen Naive Bayes-Klassifikator erstellt, der die Bag-of-Word-Technik verwendet, um Spam-Posts auf einem Message Board zu klassifizieren. Es funktioniert, aber ich denke, ich könnte viel bessere Ergebnisse erzielen, wenn meine Modelle die Wortreihenfolgen und Phrasen berücksichtigen. (Beispiel: "Mädchen" und "Leben" lösen möglicherweise keine hohe Spam-Punktzahl aus, obwohl "Lebende Mädchen" …

4
Verzerrte Daten für mehrere Klassen
Ich habe einen Datensatz, der ~ 100.000 Proben von 50 Klassen enthält. Ich habe SVM mit einem RBF-Kernel verwendet, um neue Daten zu trainieren und vorherzusagen. Das Problem ist jedoch, dass der Datensatz in Richtung verschiedener Klassen verschoben ist. Zum Beispiel Klasse 1 - 30 (jeweils ~ 3%), Klasse 31 …

3
NASDAQ-Handelsdaten
Ich versuche, Bestandsdaten zu finden, mit denen ich üben kann. Gibt es dafür eine gute Ressource? Ich habe folgendes gefunden: ftp://emi.nasdaq.com/ITCH/ aber es hat nur das aktuelle Jahr. Ich habe bereits eine Möglichkeit, das Protokoll zu analysieren, möchte aber weitere Daten zum Vergleichen haben. Es muss nicht dasselbe Format haben, …


3
Inverse Beziehung zwischen Präzision und Rückruf
Ich machte eine Suche, um Präzision und Rückruf zu lernen, und ich sah, dass einige Diagramme eine umgekehrte Beziehung zwischen Präzision und Rückruf darstellen, und begann darüber nachzudenken, um das Thema zu klären. Ich frage mich, ob die umgekehrte Beziehung immer gilt. Angenommen, ich habe ein binäres Klassifizierungsproblem und es …

2
Warum brauchen wir 2 Matrizen für word2vec oder GloVe?
Word2vec und GloVe sind die beiden bekanntesten Methoden zum Einbetten von Wörtern. Viele Arbeiten wiesen darauf hin, dass diese beiden Modelle tatsächlich sehr nahe beieinander liegen und unter bestimmten Voraussetzungen eine Matrixfaktorisierung des ppmi der gleichzeitigen Vorkommen der Wörter im Korpus durchführen. Trotzdem kann ich nicht verstehen, warum wir für …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.