Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.
Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt. Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu …
Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …
Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …
Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …
An meiner Universität haben wir einen HPC-Computercluster. Ich benutze den Cluster, um Klassifikatoren zu trainieren und so weiter. Um einen Job an den Cluster zu senden (z. B. Python-Scikit-Lernskript), muss ich normalerweise ein Bash-Skript schreiben, das (unter anderem) einen Befehl wie enthält qsub script.py. Ich finde diesen Prozess jedoch sehr, …
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
Ich habe einen Datensatz in folgender Struktur in eine CSV-Datei eingefügt: Banana Water Rice Rice Water Bread Banana Juice Jede Zeile zeigt eine Sammlung von Artikeln an, die zusammen gekauft wurden. Zum Beispiel zeigt die erste Zeile , dass die Elemente Banana, Water, und Ricezusammen gekauft wurden. Ich möchte eine …
Ich habe einen großen Datensatz mit 9 Millionen JSON-Objekten mit jeweils ~ 300 Bytes. Dies sind Beiträge eines Link-Aggregators: Links (URL, Titel und Autoren-ID) und Kommentare (Text und Autoren-ID) + Metadaten. Es kann sich durchaus um relationale Datensätze in einer Tabelle handeln, mit Ausnahme der Tatsache, dass sie ein Arrayfeld …
Ich versuche, Web Scraping mit Python selbst zu lernen, um die Datenanalyse zu erlernen. Ich versuche, die imdb-Webseite zu durchsuchen, deren URL wie folgt lautet: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Ich benutze das BeautifulSoup-Modul. Es folgt der Code, den ich verwende: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) …
Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option …
Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig. Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die …
Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere. Warum …
Ich muss die Genauigkeit eines Trainingsdatensatzes durch Anwendung des Random Forest-Algorithmus ermitteln. Aber der Typ meines Datensatzes ist sowohl kategorisch als auch numerisch. Beim Versuch, diese Daten anzupassen, wird eine Fehlermeldung angezeigt. 'Eingabe enthält NaN, unendlich oder einen Wert, der für dtype zu groß ist (' float32 ')'. Möglicherweise liegt …
Es ist sehr häufig, dass wir Benutzerproduktdaten haben, die als "Klick" gekennzeichnet sind. Um das Modell zu lernen, benötige ich Klick- und No-Click-Daten. Der einfachste Ansatz zum Generieren besteht darin, Benutzer-Produkt-Paare zu verwenden, die nicht in Klickdaten enthalten sind. Dies kann jedoch irreführend sein. Beispiel: user1, product1 (click) user2, product2 …
Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.