Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

3
Unstrukturierte Textklassifikation
Ich werde unstrukturierte Textdokumente klassifizieren, nämlich Websites mit unbekannter Struktur. Die Anzahl der Klassen, in die ich klassifiziere, ist begrenzt (derzeit gibt es meines Erachtens nicht mehr als drei). Hat jemand einen Vorschlag, wie ich anfangen könnte? Ist der Ansatz "Wortsack" hier machbar? Später könnte ich eine weitere Klassifizierungsstufe basierend …

2
Flugpreise - Welche Analyse sollte verwendet werden, um wettbewerbsfähiges Preissetzungsverhalten und Preiskorrelationen zu ermitteln?
Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …

2
Stimmungsdaten für Emoji
Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte. Auf jeden Fall gibt es 722 Emoji in Unicode 6.0 und wahrscheinlich werden weitere 250 …

3
Messung der Leistung verschiedener Klassifikatoren mit unterschiedlichen Stichprobengrößen
Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset. Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber …

3
Effizientes Datenbankmodell zum Speichern von mit n-Gramm indizierten Daten
Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist. Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten. Das klingt für mich so, als …
12 nlp  databases 

3
Vorhersage des nächsten medizinischen Zustands anhand früherer Zustände in Schadensdaten
Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM). Meine Ziele sind: Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung. Identifizieren …

2
Preference Matching Algorithmus
An diesem Nebenprojekt arbeite ich, um eine Lösung für das folgende Problem zu finden. Ich habe zwei Gruppen von Menschen (Kunden). Die Gruppe Abeabsichtigt zu kaufen und die Gruppe Bbeabsichtigt, ein bestimmtes Produkt zu verkaufen X. Das Produkt weist eine Reihe von Attributen auf x_i, und mein Ziel ist es, …

1
Was ist der Unterschied zwischen globalen und universellen Komprimierungsmethoden?
Ich verstehe, dass Komprimierungsmethoden in zwei Hauptgruppen aufgeteilt werden können: global lokal Die erste Menge funktioniert unabhängig von den verarbeiteten Daten, dh, sie stützt sich auf keine Dateneigenschaften und muss daher (vor der eigentlichen Komprimierung) keine Vorverarbeitung für einen Teil der Datenmenge durchführen. Auf der anderen Seite analysieren lokale Methoden …

3
Ersetzt Amazon RedShift Hadoop für ~ 1XTB-Daten?
Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist der Vergleich zwischen …

2
Kompromisse zwischen Storm und Hadoop (MapReduce)
Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein Stapelverarbeitungssystem und Storm ein Echtzeitverarbeitungssystem. Ich habe ein bisschen mit Hadoop …


3
Instanzen vs. Kerne bei Verwendung von EC2
Ich arbeitete an Projekten, die oft als "mittlere Daten" bezeichnet werden, und konnte meinen Code (hauptsächlich für die Modellierung und Vorhersage in Python) auf einem einzelnen System mit 4 bis 32 Kernen parallelisieren. Jetzt möchte ich auf Cluster unter EC2 hochskalieren (wahrscheinlich mit StarCluster / IPython, aber offen für andere …
12 parallel  clusters  aws 

3
Gibt es eine Daumenregel für den Entwurf neuronaler Netze?
Ich weiß, dass eine neuronale Netzwerkarchitektur hauptsächlich auf dem Problem selbst und den Arten der Eingabe / Ausgabe basiert, aber dennoch - es gibt immer eine "quadratische", wenn mit der Erstellung begonnen wird. Meine Frage lautet also: Gibt es bei einem Eingabedatensatz von MxN (M ist die Anzahl der Datensätze, …

4
Vorhersageintervall um die LSTM-Zeitreihenprognose
Gibt es eine Methode zur Berechnung des Vorhersageintervalls (Wahrscheinlichkeitsverteilung) um eine Zeitreihenprognose aus einem LSTM-Netzwerk (oder einem anderen wiederkehrenden neuronalen Netzwerk)? Angenommen, ich prognostiziere 10 Stichproben für die Zukunft (t + 1 bis t + 10), basierend auf den letzten 10 beobachteten Stichproben (t-9 bis t), würde ich erwarten, dass …

1
Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)
Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.