Data Science data-mining

2

Ich habe eine HTML-Zeichenfolge und möchte herausfinden, ob ein von mir angegebenes Wort in dieser Zeichenfolge relevant ist. Die Relevanz könnte anhand der Häufigkeit im Text gemessen werden. Ein Beispiel zur Veranschaulichung meines Problems: this is an awesome bike store bikes can be purchased online. the bikes we own rock. …

8 machine-learning data-mining

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

3

So verbinden Sie Data-Mining mit dem Prozess des Maschinenlernens

Ich möchte einen Data-Mining-Dienst in Google Go schreiben, der Daten durch Scraping und APIs sammelt. Da Go jedoch keine gute ML-Unterstützung hat, würde ich gerne die ML-Sachen in Python machen. Mit einem Web-Hintergrund würde ich beide Dienste mit so etwas wie RPC verbinden, aber da ich glaube, dass dies ein …

8 machine-learning data-mining

3

Warum verwenden wir einen Gaußschen Kernel als Ähnlichkeitsmetrik?

Warum wird beim graphbasierten Clustering der Gaußsche Kernel anstelle des Abstands zwischen zwei Punkten als Ähnlichkeitsmetrik bevorzugt?

7 machine-learning data-mining clustering metric

2

Verstehen, wie verteiltes PCA funktioniert

Im Rahmen eines Big-Data-Analyseprojekts arbeite ich an: Ich muss PCA für einige Daten mithilfe eines Cloud-Computing-Systems durchführen. In meinem Fall verwende ich Amazon EMR für den Job und insbesondere Spark. Abgesehen von der Frage "Wie man PCA-in-Spark durchführt" möchte ich ein Verständnis dafür bekommen, wie die Dinge hinter den Kulissen …

7 data-mining bigdata apache-spark pca distributed

3

Eine Hot-Codierung für eine große Anzahl von Werten

Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist? In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht. Wie gehen wir mit solchen …

7 machine-learning data-mining classification dataset categorical-data

1

Wie vergleicht sich SQL Server Analysis Services mit R?

Dies mag eine zu weit gefasste Frage mit starken Meinungen sein, aber es fällt mir wirklich schwer, Informationen über das Ausführen verschiedener Algorithmen mit SQL Server Analysis Service-Data-Mining-Projekten im Vergleich zu R zu finden. Dies liegt hauptsächlich daran, dass alle Data-Science-Mitarbeiter mit mir zusammenarbeiten Ich habe keine Ahnung von SSAS, …

7 data-mining r algorithms

1

Wie geht der naive Bayes-Klassifikator mit fehlenden Daten im Training um?

Naive Bayes geht offenbar unterschiedlich mit fehlenden Daten um, je nachdem, ob sie in Trainings- oder Test- / Klassifizierungsinstanzen vorhanden sind. Bei der Klassifizierung von Instanzen wird das Attribut mit dem fehlenden Wert einfach nicht in die Wahrscheinlichkeitsberechnung einbezogen ( http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf ). Im Training "ist die Instanz [mit den fehlenden …

7 machine-learning data-mining classification naive-bayes-classifier

Als «data-mining» getaggte Fragen