Als «data-mining» getaggte Fragen

Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.

2
Wie viele Daten reichen aus, um mein Modell für maschinelles Lernen zu trainieren?
Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt. Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu …


7
LinkedIn Web Scraping
Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …

3
Beziehung zwischen KS, AUROC und Gini
Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

4
Arbeiten mit HPC-Clustern
An meiner Universität haben wir einen HPC-Computercluster. Ich benutze den Cluster, um Klassifikatoren zu trainieren und so weiter. Um einen Job an den Cluster zu senden (z. B. Python-Scikit-Lernskript), muss ich normalerweise ein Bash-Skript schreiben, das (unter anderem) einen Befehl wie enthält qsub script.py. Ich finde diesen Prozess jedoch sehr, …

3
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 



4
Wie kratzt man imdb Webseite?
Ich versuche, Web Scraping mit Python selbst zu lernen, um die Datenanalyse zu erlernen. Ich versuche, die imdb-Webseite zu durchsuchen, deren URL wie folgt lautet: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Ich benutze das BeautifulSoup-Modul. Es folgt der Code, den ich verwende: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) …

2
Skalierbare Ausreißer- / Anomalieerkennung
Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option …

4
Welche ersten Schritte sollte ich ausführen, um große Datenmengen zu verstehen, und welche Tools sollte ich verwenden?
Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig. Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die …

4
Warum können verschiedene Modelltypen fast identische Ergebnisse liefern?
Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere. Warum …

2
Wie kann ich kategoriale Datentypen für die zufällige Waldklassifizierung anpassen?
Ich muss die Genauigkeit eines Trainingsdatensatzes durch Anwendung des Random Forest-Algorithmus ermitteln. Aber der Typ meines Datensatzes ist sowohl kategorisch als auch numerisch. Beim Versuch, diese Daten anzupassen, wird eine Fehlermeldung angezeigt. 'Eingabe enthält NaN, unendlich oder einen Wert, der für dtype zu groß ist (' float32 ')'. Möglicherweise liegt …

1
Benutzerprodukt positiv (Klickdaten) verfügbar. Wie generiere ich negative (No-Click-Daten)?
Es ist sehr häufig, dass wir Benutzerproduktdaten haben, die als "Klick" gekennzeichnet sind. Um das Modell zu lernen, benötige ich Klick- und No-Click-Daten. Der einfachste Ansatz zum Generieren besteht darin, Benutzer-Produkt-Paare zu verwenden, die nicht in Klickdaten enthalten sind. Dies kann jedoch irreführend sein. Beispiel: user1, product1 (click) user2, product2 …

1
Wie berechne ich den Delta-Term einer Faltungsschicht unter Berücksichtigung der Delta-Terme und Gewichte der vorherigen Faltungsschicht?
Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.