Ich werde unstrukturierte Textdokumente klassifizieren, nämlich Websites mit unbekannter Struktur. Die Anzahl der Klassen, in die ich klassifiziere, ist begrenzt (derzeit gibt es meines Erachtens nicht mehr als drei). Hat jemand einen Vorschlag, wie ich anfangen könnte? Ist der Ansatz "Wortsack" hier machbar? Später könnte ich eine weitere Klassifizierungsstufe basierend …
Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …
Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte. Auf jeden Fall gibt es 722 Emoji in Unicode 6.0 und wahrscheinlich werden weitere 250 …
Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset. Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber …
Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist. Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten. Das klingt für mich so, als …
Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM). Meine Ziele sind: Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung. Identifizieren …
An diesem Nebenprojekt arbeite ich, um eine Lösung für das folgende Problem zu finden. Ich habe zwei Gruppen von Menschen (Kunden). Die Gruppe Abeabsichtigt zu kaufen und die Gruppe Bbeabsichtigt, ein bestimmtes Produkt zu verkaufen X. Das Produkt weist eine Reihe von Attributen auf x_i, und mein Ziel ist es, …
Ich verstehe, dass Komprimierungsmethoden in zwei Hauptgruppen aufgeteilt werden können: global lokal Die erste Menge funktioniert unabhängig von den verarbeiteten Daten, dh, sie stützt sich auf keine Dateneigenschaften und muss daher (vor der eigentlichen Komprimierung) keine Vorverarbeitung für einen Teil der Datenmenge durchführen. Auf der anderen Seite analysieren lokale Methoden …
Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist der Vergleich zwischen …
Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein Stapelverarbeitungssystem und Storm ein Echtzeitverarbeitungssystem. Ich habe ein bisschen mit Hadoop …
Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Da mir das maschinelle Lernen im Allgemeinen neu ist, …
Ich arbeitete an Projekten, die oft als "mittlere Daten" bezeichnet werden, und konnte meinen Code (hauptsächlich für die Modellierung und Vorhersage in Python) auf einem einzelnen System mit 4 bis 32 Kernen parallelisieren. Jetzt möchte ich auf Cluster unter EC2 hochskalieren (wahrscheinlich mit StarCluster / IPython, aber offen für andere …
Ich weiß, dass eine neuronale Netzwerkarchitektur hauptsächlich auf dem Problem selbst und den Arten der Eingabe / Ausgabe basiert, aber dennoch - es gibt immer eine "quadratische", wenn mit der Erstellung begonnen wird. Meine Frage lautet also: Gibt es bei einem Eingabedatensatz von MxN (M ist die Anzahl der Datensätze, …
Gibt es eine Methode zur Berechnung des Vorhersageintervalls (Wahrscheinlichkeitsverteilung) um eine Zeitreihenprognose aus einem LSTM-Netzwerk (oder einem anderen wiederkehrenden neuronalen Netzwerk)? Angenommen, ich prognostiziere 10 Stichproben für die Zukunft (t + 1 bis t + 10), basierend auf den letzten 10 beobachteten Stichproben (t-9 bis t), würde ich erwarten, dass …
Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.