Data Science machine-learning

2

Ich habe eine HTML-Zeichenfolge und möchte herausfinden, ob ein von mir angegebenes Wort in dieser Zeichenfolge relevant ist. Die Relevanz könnte anhand der Häufigkeit im Text gemessen werden. Ein Beispiel zur Veranschaulichung meines Problems: this is an awesome bike store bikes can be purchased online. the bikes we own rock. …

8 machine-learning data-mining

2

Was sind einige Standardmethoden zur Berechnung der Entfernung zwischen einzelnen Suchanfragen?

Ich stellte eine ähnliche Frage nach der Entfernung zwischen "Dokumenten" (Wikipedia-Artikel, Nachrichten usw.). Ich habe dies zu einer separaten Frage gemacht, da Suchanfragen erheblich kleiner als Dokumente und erheblich lauter sind. Ich weiß daher nicht (und bezweifle), ob hier die gleichen Entfernungsmetriken verwendet werden würden. Entweder werden lexikalische Vanille-Distanzmetriken oder …

8 machine-learning nlp search

4

Online-Tutorial zum maschinellen Lernen

Kennt jemand einige gute Tutorials zu Online-Techniken des maschinellen Lernens? Dh wie es in Echtzeitumgebungen verwendet werden kann, was sind die Hauptunterschiede zu normalen Methoden des maschinellen Lernens usw. UPD: Vielen Dank an alle für die Antworten. Mit "online" meine ich Methoden, die in einem Echtzeitmodus trainiert werden können, basierend …

8 machine-learning education beginner

2

Linear ansteigende Daten durch manuelles Zurücksetzen

Ich habe einen linear ansteigenden Zeitreihendatensatz eines Sensors mit Wertebereichen zwischen 50 und 150. Ich habe einen einfachen linearen Regressionsalgorithmus implementiert , um eine Regressionslinie an solche Daten anzupassen, und ich sage das Datum voraus, an dem die Reihe erreicht werden würde 120. Alles funktioniert gut, wenn sich die Serie …

8 machine-learning statistics time-series

4

Wie ersetze ich NaN-Werte für Bilddaten?

Mein Datensatz enthält insgesamt 200 Spalten, wobei jede Spalte in allen meinen Bildern demselben Pixel entspricht. Insgesamt habe ich 48.500 Zeilen. Die Beschriftungen für die Daten reichen von 0 bis 9. Die Daten sehen ungefähr so aus: raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 …

8 machine-learning python pandas numpy image-preprocessing

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

2

Gibt es einen Konsens über die Wahl eines geeigneten ML-Ansatzes?

Ich studiere zurzeit Datenwissenschaft und wir lernen eine schwindelerregende Vielfalt grundlegender Regressions- / Klassifizierungstechniken (linear, logistisch, Bäume, Splines, ANN, SVM, MARS usw.) sowie eine Vielzahl von zusätzliche Werkzeuge (Bootstrapping, Boosten, Absacken, Ensemble, Ridge / Lasso, CV usw. usw.). Manchmal erhalten die Techniken einen Kontext (z. B. geeignet für kleine / …

8 machine-learning neural-network deep-learning classification data-science-model

1

Quelle von Arthur Samuels Definition des maschinellen Lernens

Viele Menschen scheinen zuzustimmen, dass Arthur Samuel 1959 schrieb oder sagte, dass maschinelles Lernen das " Studienfeld ist, in dem Computer lernen können, ohne explizit programmiert zu werden ". Zum Beispiel ist das Zitat in enthält dieser Seite , dass eine und Andrew Ng ML Kurs . Einige Artikel enthalten …

8 machine-learning

2

Umgang mit Merkmalsvektoren variabler Länge

Wie geht man mit einem Merkmalsvektor um, dessen Größe variieren kann? Nehmen wir an, ich berechne pro Objekt 4 Merkmale. Um ein bestimmtes Regressionsproblem zu lösen, habe ich möglicherweise 1, 2 oder mehr dieser Objekte (nicht mehr als 10). Somit ist der Merkmalsvektor 4 · N lang. Wie wird das …

8 machine-learning regression linear-regression

3

Was bedeutet der Begriff Varianz im Modell des maschinellen Lernens?

Ich kenne Begriffe mit hoher Voreingenommenheit und hoher Varianz und deren Auswirkungen auf das Modell. Grundsätzlich weist Ihr Modell eine hohe Varianz auf, wenn es zu komplex und empfindlich ist, selbst wenn es zu Ausreißern kommt. Aber kürzlich wurde ich in einem der Interviews nach der Bedeutung des Begriffs Varianz …

8 machine-learning variance

2

Wie funktioniert die allgemeine Vorteilsschätzung?

Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert. Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden. Ich habe versucht, die …

8 machine-learning reinforcement-learning

3

Unterschied zwischen Indikatorspalte und kategorialer Identitätsspalte im Tensorflow

Ich lerne Tensorflow und bin auf verschiedene Feature-Spalten gestoßen, die in Tensorflow verwendet werden. Von diesen Typen sind zwei categorical_identity_columnund indicator_column. Beide wurden auf die gleiche Weise definiert. Soweit ich weiß, konvertieren beide kategoriale Spalten in One-Hot-codierte Spalten. Meine Frage ist also, was ist der Unterschied zwischen den beiden? Wann …

8 machine-learning tensorflow

2

Ist das ein Q-Learning-Algorithmus oder nur Brute Force?

Ich habe mit einem Algorithmus gespielt, der lernt, wie man Tictactoe spielt. Der grundlegende Pseudocode lautet: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for …

8 machine-learning neural-network reinforcement-learning q-learning

2

Bedeutung der XGBoost-Funktion - Verstärkung und Abdeckung sind hoch, aber die Frequenz ist niedrig

Ich habe diese Frage gelesen: Wie interpretiere ich die Ausgabe von XGBoost wichtig? Informationen zu den drei verschiedenen Arten von Feature-Wichtigkeiten: Häufigkeit (in Python XGBoost als "Gewicht" bezeichnet), Verstärkung und Deckung. In meinem Fall habe ich eine Funktion, Geschlecht, die basierend auf der Frequenzmetrik eine sehr geringe Bedeutung hat, aber …

8 machine-learning xgboost

2

Train / Test Split nach SMOTE durchführen

Ich habe es mit sehr unausgeglichenen Daten zu tun, daher habe ich den SMOTE-Algorithmus verwendet, um den Datensatz neu abzutasten. Nach dem SMOTE-Resampling habe ich den neu abgetasteten Datensatz in Trainings- / Testsätze aufgeteilt, wobei ich den Trainingssatz zum Erstellen eines Modells und den Testsatz zum Bewerten des Modells verwendet …

8 machine-learning unbalanced-classes evaluation

Als «machine-learning» getaggte Fragen