Data Science

1

XGBRegressor vs. xgboost.train großer Geschwindigkeitsunterschied?

Wenn ich mein Modell mit dem folgenden Code trainiere: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) es endet in ungefähr 1 Minute. Wenn ich mein Modell mit der …

13 machine-learning python decision-trees xgboost efficiency

1

Wie gehe ich mit einem Nullfaktor bei der Berechnung des Naive Bayes-Klassifikators um?

Wenn ich einen Trainingsdatensatz habe und einen Naive Bayes-Klassifikator darauf trainiere und einen Attributwert mit der Wahrscheinlichkeit Null habe. Wie gehe ich damit um, wenn ich später die Klassifizierung für neue Daten vorhersagen möchte? Das Problem ist, wenn es eine Null in der Berechnung gibt, wird das gesamte Produkt zu …

13 classification naive-bayes-classifier

1

Heatmap auf einer Karte in Python

Mode Analytics hat eine nette Heatmap-Funktion ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Es ist jedoch nicht förderlich, Karten zu vergleichen (nur eine pro Bericht). Sie ermöglichen es, Daten einfach in ein Python-Notizbuch zu ziehen. Und dann kann jedes Bild in Python einfach zu einem Bericht hinzugefügt werden. Meine Frage lautet also: Wie erstelle …

13 python visualization geospatial

1

Konvertiert eine Pandas-Spalte von int in einen Zeitstempeldatentyp

Ich habe einen Datenrahmen, der unter anderem eine Spalte mit der Anzahl der Millisekunden enthält, die seit 1970-1-1 vergangen sind. Ich muss diese Spalte mit Ints in Zeitstempeldaten konvertieren, damit ich sie schließlich in eine Spalte mit Datums- und Uhrzeitdaten konvertieren kann, indem ich die Zeitstempel-Spaltenreihe zu einer Reihe hinzufüge, …

13 python time-series data-cleaning pandas

1

Rückausbreitung durch max. Pooling-Schichten

Ich habe eine kleine Unterfrage zu dieser Frage . Ich verstehe, dass bei der Rückübertragung durch eine Max-Pooling-Schicht der Gradient so zurückgeleitet wird, dass das Neuron in der vorherigen Schicht, das als Max ausgewählt wurde, den gesamten Gradienten erhält. Was ich nicht 100% sicher bin, ist, wie der Gradient in …

13 machine-learning neural-network convnet backpropagation

3

Doc2vec (gensim) - Wie kann ich auf das Etikett von unsichtbaren Sätzen schließen?

https://radimrehurek.com/gensim/models/doc2vec.html Zum Beispiel, wenn wir doc2vec mit trainiert haben "aaaaaAAAAAaaaaaa" - "Label 1" "BbbbbbBBBBbbbbb" - "label 2" Können wir mit Doc2vec auf „aaaaAAAAaaaaAA“ als Label 1 schließen? Ich weiß, dass Doc2vec Wortvektoren und Beschriftungsvektoren trainieren kann. Können wir unter Verwendung dieser Vektoren auf unsichtbare Sätze (Kombination von trainierten Wörtern) schließen, …

13 gensim

5

Die Wichtigkeit von Features beim Lernen mit dem Scikit Random Forest zeigt eine sehr hohe Standardabweichung

Ich verwende den Random Forest Classifier von scikit-learn und möchte die Wichtigkeit von Features wie in diesem Beispiel darstellen . Mein Ergebnis ist jedoch völlig anders, in dem Sinne, dass die Standardabweichung der Merkmalsbedeutung fast immer größer ist als die Merkmalsbedeutung selbst (siehe beigefügtes Bild). Kann man sich so verhalten, …

13 python random-forest

1

Erkennen Sie eine Grammatik in einer Folge von unscharfen Token

Ich habe Textdokumente, die hauptsächlich Listen von Gegenständen enthalten. Jedes Objekt ist eine Gruppe von mehreren Token verschiedener Typen: Vorname, Nachname, Geburtsdatum, Telefonnummer, Stadt, Beruf usw. Ein Token ist eine Gruppe von Wörtern. Artikel können in mehreren Zeilen liegen. Elemente aus einem Dokument haben ungefähr dieselbe Tokensyntax, müssen jedoch nicht …

13 data-mining clustering text-mining time-series correlation

1

Was ist der Unterschied zwischen einem (dynamischen) Bayes-Netzwerk und einem HMM?

Ich habe gelesen, dass HMMs, Partikelfilter und Kalman-Filter Spezialfälle von dynamischen Bayes-Netzwerken sind. Ich kenne jedoch nur HMMs und sehe keinen Unterschied zu dynamischen Bayes-Netzwerken. Könnte jemand bitte erklären? Es wäre schön, wenn Ihre Antwort ähnlich wie die folgende aussehen könnte, aber für bayes Networks: Versteckte Markov-Modelle Ein Hidden Markov …

13 bayesian-networks pgm

2

Lineare Regression mit unsymmetrischer Kostenfunktion?

Ich möchte einen Wert vorhersagen und ich versuche, eine Vorhersage zu erhalten, bei der so niedrig wie möglich ist, aber immer noch größer als . Mit anderen Worten: Y ( x ) , Y ( x ) Kosten { Y ( x ) ≳ Y ( x ) } > …

13 machine-learning logistic-regression

3

Muss ich bei einer unsymmetrischen Klasse eine Stichprobe für meine Validierungs- / Testdatensätze verwenden?

Ich bin ein Anfänger im maschinellen Lernen und stehe vor einer Situation. Ich arbeite an einem Real Time Bidding-Problem mit dem IPinYou-Dataset und versuche, eine Klickvorhersage zu erstellen. Die Sache ist, wie Sie vielleicht wissen, dass der Datensatz sehr unausgeglichen ist: Rund 1300 negative Beispiele (ohne Klick) für 1 positives …

13 machine-learning dataset sampling

2

Effizienter Algorithmus zur Berechnung der ROC-Kurve für einen Klassifikator, der aus einem Ensemble von disjunkten Klassifikatoren besteht

Angenommen, ich habe Klassifizierer C_1 ... C_n, die in dem Sinne disjunkt sind, dass keine zwei bei derselben Eingabe true zurückgeben (z. B. die Knoten in einem Entscheidungsbaum). Ich möchte einen neuen Klassifikator erstellen, der die Vereinigung einer Teilmenge von diesen darstellt (z. B. möchte ich entscheiden, welche Blätter eines …

13 algorithms

2

So berechnen Sie den Mittelwert einer DataFrame-Spalte und ermitteln die besten 10%

Ich bin sehr neu in Scala und Spark und arbeite an einigen selbst gemachten Übungen, die Baseballstatistiken verwenden. Ich verwende eine Fallklasse, erstelle eine RDD und ordne den Daten ein Schema zu. Anschließend verwandle ich sie in einen DataFrame, damit ich mithilfe von SparkSQL Gruppen von Spielern anhand ihrer Statistiken …

13 apache-spark scala

7

Ich bin Programmierer, wie komme ich in den Bereich Data Science?

Zunächst klingt dieser Begriff so dunkel. Sowieso. Ich bin ein Software-Programmierer. Eine der Sprachen, die ich codieren kann, ist Python. Apropos Daten Ich kann SQL und Data Scraping verwenden. Was ich bisher herausgefunden habe, nachdem ich so viele Artikel gelesen habe, in denen Data Science nur gut ist: 1- Statistiken …

13 beginner career

1

Was ist der Unterschied zwischen Feature-Generierung und Feature-Extraktion?

Kann mir jemand sagen, was der Zweck der Feature-Generierung ist? und warum muss der Merkmalsraum angereichert werden, bevor ein Bild klassifiziert wird? Ist es ein notwendiger Schritt? Gibt es eine Methode, um den Funktionsbereich zu erweitern?

13 machine-learning classification