Data Science

3

Ich werde unstrukturierte Textdokumente klassifizieren, nämlich Websites mit unbekannter Struktur. Die Anzahl der Klassen, in die ich klassifiziere, ist begrenzt (derzeit gibt es meines Erachtens nicht mehr als drei). Hat jemand einen Vorschlag, wie ich anfangen könnte? Ist der Ansatz "Wortsack" hier machbar? Später könnte ich eine weitere Klassifizierungsstufe basierend …

12 machine-learning classification text-mining beginner

2

Flugpreise - Welche Analyse sollte verwendet werden, um wettbewerbsfähiges Preissetzungsverhalten und Preiskorrelationen zu ermitteln?

Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …

12 data-mining dataset regression correlation visualization

2

Stimmungsdaten für Emoji

Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte. Auf jeden Fall gibt es 722 Emoji in Unicode 6.0 und wahrscheinlich werden weitere 250 …

12 machine-learning classification parsing

3

Messung der Leistung verschiedener Klassifikatoren mit unterschiedlichen Stichprobengrößen

Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset. Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber …

12 classification performance

3

Effizientes Datenbankmodell zum Speichern von mit n-Gramm indizierten Daten

Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist. Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten. Das klingt für mich so, als …

12 nlp databases

3

Vorhersage des nächsten medizinischen Zustands anhand früherer Zustände in Schadensdaten

Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM). Meine Ziele sind: Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung. Identifizieren …

12 machine-learning r

2

Preference Matching Algorithmus

An diesem Nebenprojekt arbeite ich, um eine Lösung für das folgende Problem zu finden. Ich habe zwei Gruppen von Menschen (Kunden). Die Gruppe Abeabsichtigt zu kaufen und die Gruppe Bbeabsichtigt, ein bestimmtes Produkt zu verkaufen X. Das Produkt weist eine Reihe von Attributen auf x_i, und mein Ziel ist es, …

12 bigdata text-mining recommender-system

1

Was ist der Unterschied zwischen globalen und universellen Komprimierungsmethoden?

Ich verstehe, dass Komprimierungsmethoden in zwei Hauptgruppen aufgeteilt werden können: global lokal Die erste Menge funktioniert unabhängig von den verarbeiteten Daten, dh, sie stützt sich auf keine Dateneigenschaften und muss daher (vor der eigentlichen Komprimierung) keine Vorverarbeitung für einen Teil der Datenmenge durchführen. Auf der anderen Seite analysieren lokale Methoden …

12 classification algorithms encoding

3

Ersetzt Amazon RedShift Hadoop für ~ 1XTB-Daten?

Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist der Vergleich zwischen …

12 apache-hadoop map-reduce aws

2

Kompromisse zwischen Storm und Hadoop (MapReduce)

Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein Stapelverarbeitungssystem und Storm ein Echtzeitverarbeitungssystem. Ich habe ein bisschen mit Hadoop …

12 bigdata efficiency apache-hadoop distributed

9

Was sind einige leicht zu erlernende maschinelle Lernanwendungen? [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Da mir das maschinelle Lernen im Allgemeinen neu ist, …

12 machine-learning

3

Instanzen vs. Kerne bei Verwendung von EC2

Ich arbeitete an Projekten, die oft als "mittlere Daten" bezeichnet werden, und konnte meinen Code (hauptsächlich für die Modellierung und Vorhersage in Python) auf einem einzelnen System mit 4 bis 32 Kernen parallelisieren. Jetzt möchte ich auf Cluster unter EC2 hochskalieren (wahrscheinlich mit StarCluster / IPython, aber offen für andere …

12 parallel clusters aws

3

Gibt es eine Daumenregel für den Entwurf neuronaler Netze?

Ich weiß, dass eine neuronale Netzwerkarchitektur hauptsächlich auf dem Problem selbst und den Arten der Eingabe / Ausgabe basiert, aber dennoch - es gibt immer eine "quadratische", wenn mit der Erstellung begonnen wird. Meine Frage lautet also: Gibt es bei einem Eingabedatensatz von MxN (M ist die Anzahl der Datensätze, …

12 neural-network

4

Vorhersageintervall um die LSTM-Zeitreihenprognose

Gibt es eine Methode zur Berechnung des Vorhersageintervalls (Wahrscheinlichkeitsverteilung) um eine Zeitreihenprognose aus einem LSTM-Netzwerk (oder einem anderen wiederkehrenden neuronalen Netzwerk)? Angenommen, ich prognostiziere 10 Stichproben für die Zukunft (t + 1 bis t + 10), basierend auf den letzten 10 beobachteten Stichproben (t-9 bis t), würde ich erwarten, dass …

12 machine-learning deep-learning time-series prediction lstm

1

Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für …

12 scikit-learn feature-selection random-forest xgboost categorical-data