Data Science data-mining

2

Wie viele Daten reichen aus, um mein Modell für maschinelles Lernen zu trainieren?

Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt. Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu …

11 machine-learning data-mining dataset data-cleaning data

4

Wie vermeide ich eine Überanpassung in zufälligen Wäldern?

Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …

11 machine-learning data-mining r predictive-modeling random-forest

7

LinkedIn Web Scraping

Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …

11 data-mining social-network-analysis crawling scraping

3

Beziehung zwischen KS, AUROC und Gini

Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

11 data-mining statistics predictive-modeling accuracy

4

Arbeiten mit HPC-Clustern

An meiner Universität haben wir einen HPC-Computercluster. Ich benutze den Cluster, um Klassifikatoren zu trainieren und so weiter. Um einen Job an den Cluster zu senden (z. B. Python-Scikit-Lernskript), muss ich normalerweise ein Bash-Skript schreiben, das (unter anderem) einen Befehl wie enthält qsub script.py. Ich finde diesen Prozess jedoch sehr, …

11 bigdata data-mining

3

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Visualisierung von häufig zusammen gekauften Artikeln

Ich habe einen Datensatz in folgender Struktur in eine CSV-Datei eingefügt: Banana Water Rice Rice Water Bread Banana Juice Jede Zeile zeigt eine Sammlung von Artikeln an, die zusammen gekauft wurden. Zum Beispiel zeigt die erste Zeile , dass die Elemente Banana, Water, und Ricezusammen gekauft wurden. Ich möchte eine …

10 python r data-mining visualization association-rules

3

Was ist schneller: PostgreSQL vs MongoDB auf großen JSON-Datasets?

Ich habe einen großen Datensatz mit 9 Millionen JSON-Objekten mit jeweils ~ 300 Bytes. Dies sind Beiträge eines Link-Aggregators: Links (URL, Titel und Autoren-ID) und Kommentare (Text und Autoren-ID) + Metadaten. Es kann sich durchaus um relationale Datensätze in einer Tabelle handeln, mit Ausnahme der Tatsache, dass sie ein Arrayfeld …

10 data-mining bigdata databases sql mongodb

4

Wie kratzt man imdb Webseite?

Ich versuche, Web Scraping mit Python selbst zu lernen, um die Datenanalyse zu erlernen. Ich versuche, die imdb-Webseite zu durchsuchen, deren URL wie folgt lautet: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Ich benutze das BeautifulSoup-Modul. Es folgt der Code, den ich verwende: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) …

10 data-mining python scraping

2

Skalierbare Ausreißer- / Anomalieerkennung

Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option …

10 data-mining bigdata algorithms outlier

4

Welche ersten Schritte sollte ich ausführen, um große Datenmengen zu verstehen, und welche Tools sollte ich verwenden?

Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig. Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die …

10 machine-learning data-mining tools beginner

4

Warum können verschiedene Modelltypen fast identische Ergebnisse liefern?

Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere. Warum …

10 data-mining classification binary

2

Wie kann ich kategoriale Datentypen für die zufällige Waldklassifizierung anpassen?

Ich muss die Genauigkeit eines Trainingsdatensatzes durch Anwendung des Random Forest-Algorithmus ermitteln. Aber der Typ meines Datensatzes ist sowohl kategorisch als auch numerisch. Beim Versuch, diese Daten anzupassen, wird eine Fehlermeldung angezeigt. 'Eingabe enthält NaN, unendlich oder einen Wert, der für dtype zu groß ist (' float32 ')'. Möglicherweise liegt …

10 python data-mining random-forest

1

Benutzerprodukt positiv (Klickdaten) verfügbar. Wie generiere ich negative (No-Click-Daten)?

Es ist sehr häufig, dass wir Benutzerproduktdaten haben, die als "Klick" gekennzeichnet sind. Um das Modell zu lernen, benötige ich Klick- und No-Click-Daten. Der einfachste Ansatz zum Generieren besteht darin, Benutzer-Produkt-Paare zu verwenden, die nicht in Klickdaten enthalten sind. Dies kann jedoch irreführend sein. Beispiel: user1, product1 (click) user2, product2 …

10 machine-learning data-mining

1

Wie berechne ich den Delta-Term einer Faltungsschicht unter Berücksichtigung der Delta-Terme und Gewichte der vorherigen Faltungsschicht?

Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in …

10 machine-learning data-mining neural-network deep-learning

Als «data-mining» getaggte Fragen