Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.
Ich habe eine HTML-Zeichenfolge und möchte herausfinden, ob ein von mir angegebenes Wort in dieser Zeichenfolge relevant ist. Die Relevanz könnte anhand der Häufigkeit im Text gemessen werden. Ein Beispiel zur Veranschaulichung meines Problems: this is an awesome bike store bikes can be purchased online. the bikes we own rock. …
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
Ich möchte einen Data-Mining-Dienst in Google Go schreiben, der Daten durch Scraping und APIs sammelt. Da Go jedoch keine gute ML-Unterstützung hat, würde ich gerne die ML-Sachen in Python machen. Mit einem Web-Hintergrund würde ich beide Dienste mit so etwas wie RPC verbinden, aber da ich glaube, dass dies ein …
Im Rahmen eines Big-Data-Analyseprojekts arbeite ich an: Ich muss PCA für einige Daten mithilfe eines Cloud-Computing-Systems durchführen. In meinem Fall verwende ich Amazon EMR für den Job und insbesondere Spark. Abgesehen von der Frage "Wie man PCA-in-Spark durchführt" möchte ich ein Verständnis dafür bekommen, wie die Dinge hinter den Kulissen …
Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist? In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht. Wie gehen wir mit solchen …
Dies mag eine zu weit gefasste Frage mit starken Meinungen sein, aber es fällt mir wirklich schwer, Informationen über das Ausführen verschiedener Algorithmen mit SQL Server Analysis Service-Data-Mining-Projekten im Vergleich zu R zu finden. Dies liegt hauptsächlich daran, dass alle Data-Science-Mitarbeiter mit mir zusammenarbeiten Ich habe keine Ahnung von SSAS, …
Naive Bayes geht offenbar unterschiedlich mit fehlenden Daten um, je nachdem, ob sie in Trainings- oder Test- / Klassifizierungsinstanzen vorhanden sind. Bei der Klassifizierung von Instanzen wird das Attribut mit dem fehlenden Wert einfach nicht in die Wahrscheinlichkeitsberechnung einbezogen ( http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf ). Im Training "ist die Instanz [mit den fehlenden …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.