Als «data-mining» getaggte Fragen

Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.

13
K-Means Clustering für gemischte numerische und kategoriale Daten
Mein Datensatz enthält eine Reihe numerischer und eine kategoriale Attribute. Sagen Sie NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, wo CategoricalAttrnimmt einen von drei möglichen Werten: CategoricalAttrValue1, CategoricalAttrValue2oder CategoricalAttrValue3. Ich verwende die standardmäßige Implementierung des k-means-Clustering-Algorithmus für Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Es funktioniert nur mit numerischen Daten. Also meine Frage: Ist es richtig, …

8
Open Source-Anomalieerkennung in Python
Problem Hintergrund: Ich arbeite an einem Projekt, das Protokolldateien umfasst, die denen im IT-Überwachungsbereich ähneln (nach meinem besten Verständnis des IT-Bereichs). Diese Protokolldateien sind Zeitreihendaten, die in Hunderten / Tausenden von Zeilen mit verschiedenen Parametern organisiert sind. Jeder Parameter ist numerisch (float) und es gibt einen nicht trivialen / fehlerfreien …



1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
Wie mache ich SVD und PCA mit Big Data?
Ich habe eine große Datenmenge (ca. 8 GB). Ich möchte maschinelles Lernen nutzen, um es zu analysieren. Daher denke ich, dass ich SVD und dann PCA verwenden sollte, um die Datendimensionalität aus Gründen der Effizienz zu reduzieren. MATLAB und Octave können jedoch einen so großen Datensatz nicht laden. Mit welchen …

3
Gini-Koeffizient gegen Gini-Verunreinigung - Entscheidungsbäume
Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der Aufteilung der Elementmenge unterstützen. 1) 'Gini-Verunreinigung' - Es handelt sich um …



4
Bedeutung latenter Merkmale?
Ich lerne etwas über Matrixfaktorisierung für Empfehlungssysteme und sehe, dass der Begriff latent featureszu häufig vorkommt, verstehe aber nicht, was er bedeutet. Ich weiß, was ein Feature ist, aber ich verstehe die Idee latenter Features nicht. Könnten Sie es bitte erklären? Oder zeigst du mir wenigstens eine Zeitung / einen …

4
Ist Data Science dasselbe wie Data Mining?
Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede …



4
Welches statistische Modell sollte ich verwenden, um die Wahrscheinlichkeit zu analysieren, dass ein einzelnes Ereignis longitudinale Daten beeinflusst?
Ich versuche, eine Formel, eine Methode oder ein Modell zu finden, um die Wahrscheinlichkeit zu analysieren, dass ein bestimmtes Ereignis einige longitudinale Daten beeinflusst. Ich habe Schwierigkeiten herauszufinden, wonach ich bei Google suchen soll. Hier ist ein Beispielszenario: Stellen Sie sich vor, Sie besitzen ein Unternehmen mit durchschnittlich 100 begehbaren …

1
Word2Vec vs.
Ich kam vor kurzem in den Bedingungen Word2Vec , Sentence2Vec und Doc2Vec und Art verwirrt wie ich bin neu in Vektor - Semantik. Kann jemand bitte die Unterschiede in diesen Methoden in einfachen Worten erläutern. Was sind die am besten geeigneten Aufgaben für jede Methode?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.