Data Science

1

Wie weit verbreitet ist Theano in der Deep-Learning-Forschung? Ist Theano ein guter Anfang, um die Implementierung von Algorithmen für maschinelles Lernen zu lernen? Wird es wirklich helfen, die Implementierung eines Feed-Forward-Netzwerks zu lernen? Implementieren Doktoranden während ihrer College-Tage mindestens einmal neuronale Netze oder andere Algorithmen? Hintergrund: Ich habe eine vernünftige …

8 machine-learning python deep-learning library

4

Wie lerne ich die Erkennung von Spam-E-Mails?

Ich möchte erfahren, wie ein Spam-E-Mail-Detektor funktioniert. Ich versuche nicht, ein kommerzielles Produkt zu bauen, es wird eine ernsthafte Lernübung für mich sein. Daher suche ich nach Ressourcen wie vorhandenen Projekten, Quellcode, Artikeln, Artikeln usw., denen ich folgen kann. Ich möchte anhand von Beispielen lernen, ich glaube nicht, dass ich …

8 machine-learning classification text-mining

4

So führen Sie eine pyspark-Anwendung in der Windows 8-Eingabeaufforderung aus

Ich habe ein Python-Skript mit Spark Context geschrieben und möchte es ausführen. Ich habe versucht, IPython in Spark zu integrieren, aber das konnte ich nicht. Also habe ich versucht, den Funkenpfad [Installationsordner / bin] als Umgebungsvariable festzulegen und den Befehl spark-submit in der Eingabeaufforderung cmd aufgerufen. Ich glaube, dass es …

8 python apache-spark pyspark ipython

3

Algorithmus zur Segmentierung von Sequenzdaten

Ich habe eine große Folge von Vektoren der Länge N. Ich brauche einen unbeaufsichtigten Lernalgorithmus, um diese Vektoren in M Segmente zu unterteilen. Zum Beispiel: K-means ist nicht geeignet, da es ähnliche Elemente von verschiedenen Standorten in einem einzigen Cluster zusammenfasst. Aktualisieren: Die realen Daten sehen folgendermaßen aus: Hier sehe …

8 machine-learning clustering sequence

1

Komplexes Chunking mit NLTK

Ich versuche herauszufinden, wie der kaskadierende Chunker von NLTK gemäß Kapitel 7 des NLTK-Buches verwendet wird . Leider stoße ich bei der Durchführung nicht trivialer Chunking-Maßnahmen auf einige Probleme. Beginnen wir mit diesem Satz: "adventure movies between 2000 and 2015 featuring performances by daniel craig" Ich kann alle relevanten NPs …

8 python nlp nltk

3

Interaktive grafische Darstellung beim Protokollieren von Daten

Ich möchte grafisch darstellen und interaktiv Live- / kontinuierlich gemessene Daten untersuchen. Es gibt einige Optionen, wobei plot.ly am benutzerfreundlichsten ist. Plot.ly verfügt über eine fantastische und benutzerfreundliche Benutzeroberfläche (leicht skalierbar, pannbar, leicht zoombar / an den Bildschirm anpassbar), kann jedoch die großen Datenmengen, die ich sammle, nicht verarbeiten. Kennt …

8 dataset visualization

1

Welche Klassifizierungsalgorithmen sollten Sie versuchen, um Textdaten in 300 Kategorien zu klassifizieren?

Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige …

8 machine-learning classification nlp text-mining

4

Was ist der Begriff, wenn ein Modell auf das zu modellierende Objekt einwirkt und damit das Konzept ändert?

Ich versuche herauszufinden, ob es einen herkömmlichen Begriff für dieses Konzept gibt, der mir bei meiner Literaturrecherche und beim Schreiben hilft. Wenn ein maschinelles Lernmodell bewirkt, dass in der realen Welt eine Aktion ausgeführt wird, die sich auf zukünftige Instanzen auswirkt, wie heißt das? Ich denke an so etwas wie …

8 machine-learning terminology

1

Dokumentklassifizierung: tf-idf vor oder nach der Feature-Filterung?

Ich habe ein Dokumentklassifizierungsprojekt, bei dem ich den Inhalt der Website erhalte und der Website dann eine von zahlreichen Beschriftungen entsprechend dem Inhalt zuweise. Ich fand heraus, dass tf-idf dafür sehr nützlich sein könnte. Ich war mir jedoch nicht sicher, wann ich es genau verwenden sollte. Die Annahme, dass eine …

8 classification feature-selection feature-extraction

2

Was sind die besten Methoden, um Benutzernamen in Daten zu anonymisieren?

Ich arbeite an einem Projekt, in dem Kommilitonen gebeten werden, ihre ursprünglichen Textdaten zur weiteren Analyse mithilfe von Data Mining-Techniken weiterzugeben. Ich halte es für angemessen, die Namen der Schüler mit ihren Einsendungen zu anonymisieren. Abgesehen von den besseren Lösungen einer URL, bei der die Schüler ihre Arbeit einreichen und …

8 machine-learning data-cleaning

2

Gewerkschaftsgruppierung in zweigeteilten Graphen?

Ich versuche eine gute (und schnelle) Lösung für das folgende Problem zu finden: Ich habe zwei Modelle, mit denen ich arbeite. Nennen wir sie Spieler und Teams. Ein Spieler kann in mehreren Teams sein und ein Team kann mehrere Spieler haben. Ich arbeite daran, ein UI-Element in einem Formular zu …

8 graphs

2

Verwendung von NLP zur Automatisierung der Kategorisierung der Benutzerbeschreibung

Ich habe eine große Anzahl von Kundenbeschwerden über die Produkte, die mein Unternehmen besitzt, und ich möchte eine Datenanalyse dieser Beschreibungen durchführen und jedem von ihnen eine Kategorie zuordnen. Beispiel: Ich muss die Anzahl der Beschwerden auf der Software- und Hardwareseite meines Produkts anhand der Kundenbeschwerden ermitteln. Derzeit verwende ich …

8 data-mining classification nlp categorical-data

1

R Fehler mit Paket tm (Text-Mining)

Ich versuche, das tm-Paket zu verwenden, um einen Vektor von Textzeichenfolgen in ein Korpuselement zu konvertieren. Mein Code sieht ungefähr so aus Corpus(d1$Yes) Dabei d1$Yeshandelt es sich um einen Faktor mit 124 Ebenen, die jeweils eine Textzeichenfolge enthalten. Zum Beispiel, d1$Yes[246] = "So we can get the boat out!" Ich …

8 r text-mining

1

Unterschied zwischen tf-idf und tf mit zufälligen Wäldern

Ich arbeite an einem Problem bei der Textklassifizierung mit Random Forest als Klassifizierer und einem Ansatz mit vielen Wörtern. Ich verwende die grundlegende Implementierung von Random Forests (die in Scikit enthaltene), die bei jedem Split eine binäre Bedingung für eine einzelne Variable erstellt. In Anbetracht dessen gibt es einen Unterschied …

8 classification text-mining random-forest

1

Einige Vorschläge für eine Karriere in der Datenwissenschaft oder in der prädiktiven Modellierung

Ich möchte meine Karriere im Bereich der Entscheidungswissenschaft oder der prädiktiven Modellierung wählen und bin mir bewusst, dass dies auf Meinungen basiert. Ich hätte jedoch gerne Vorschläge von Experten, mit denen ich meine Karriere auf dem richtigen Weg gestalten kann. Welche Tools sollte ich wie R, SAS oder andere kennen? …

8 education beginner career