Data Science

1

Unvorhersehbarkeit oder Unsicherheit in einer Zeitreihe finden

Ich bin daran interessiert, eine Statistik zu finden, die die Unvorhersehbarkeit einer Zeitreihe erfasst. Nehmen Sie der Einfachheit halber an, dass jeder Wert in der Zeitreihe entweder 1 oder 0 ist. So sind beispielsweise die folgenden zwei Zeitreihen vollständig vorhersehbar. TS1: 1 1 1 1 1 1 1 1 TS2: …

7 time-series

2

Lambda-Architektur - Implementieren der Zusammenführungs- / Abfrageebene

Ich lese über Lambda-Architektur. Es ergibt Sinn. Wir haben warteschlangenbasierte Datenaufnahme. Wir haben einen In-Memory-Speicher für Daten, der sehr neu ist, und wir haben HDFS für alte Daten. Wir haben also unseren gesamten Datensatz. in unserem System. sehr gut. Das Architekturdiagramm zeigt jedoch, dass die Zusammenführungsschicht sowohl die Batch-Schicht als …

7 bigdata apache-hadoop

1

Wie geht der naive Bayes-Klassifikator mit fehlenden Daten im Training um?

Naive Bayes geht offenbar unterschiedlich mit fehlenden Daten um, je nachdem, ob sie in Trainings- oder Test- / Klassifizierungsinstanzen vorhanden sind. Bei der Klassifizierung von Instanzen wird das Attribut mit dem fehlenden Wert einfach nicht in die Wahrscheinlichkeitsberechnung einbezogen ( http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf ). Im Training "ist die Instanz [mit den fehlenden …

7 machine-learning data-mining classification naive-bayes-classifier

1

Bitte klären Sie mich mit Platt's SMO-Algorithmus (für SVM) auf.

Aus A_Roadmap_to_SVM_SMO.pdf , S. 12. (Quelle: postimg.org ) Angenommen, ich verwende einen linearen Kernel. Wie kann ich sowohl das erste als auch das zweite innere Produkt erhalten? Meine Vermutung, inneres Produkt von Datenpunkt mit Datenpunkt j bezeichnet Klasse A für das erste innere Produkt der Gleichung und inneres Produkt von …

7 svm

3

Prognose von Devisen mit neuronalen Netzen - Verzögerung in der Vorhersage

Ich habe eine Frage zur Verwendung eines neuronalen Netzwerks. Ich arbeite derzeit mit R ( Neuralnet-Paket ) und habe das folgende Problem. Mein Test- und Validierungssatz ist in Bezug auf die historischen Daten immer zu spät. Gibt es eine Möglichkeit, das Ergebnis zu korrigieren? Vielleicht stimmt etwas in meiner Analyse …

7 r neural-network time-series forecast

5

Wo soll man in neuronalen Netzen anfangen?

Zunächst einmal weiß ich, dass die Frage möglicherweise nicht für die Website geeignet ist, aber ich würde es wirklich begrüßen, wenn Sie mir nur einige Hinweise geben würden. Ich bin ein 16-jähriger Programmierer, habe Erfahrung mit vielen verschiedenen Programmiersprachen. Vor einiger Zeit habe ich einen Kurs bei Coursera mit dem …

7 machine-learning neural-network svm

5

Wo finde ich einen kostenlosen räumlich-zeitlichen Datensatz zum Download?

Wo finde ich einen kostenlosen räumlich-zeitlichen Datensatz zum Herunterladen, damit ich in R damit spielen kann?

7 dataset open-source freebase

1

Wie kann man MLE-Schätzer in Python numerisch schätzen, wenn die Gradienten sehr klein sind und weit von der optimalen Lösung entfernt sind?

Ich untersuche, wie man einen Datensatz unter Verwendung von Normalverteilungen modelliert, wobei sowohl Mittelwert als auch Varianz als lineare Funktionen unabhängiger Variablen definiert sind. So etwas wie N ~ (f (x), g (x)). Ich generiere eine Zufallsstichprobe wie diese: def draw(x): return norm(5 * x + 2, 3 *x + …

7 python statistics

1

Verwenden von Apache Spark für ML. Immer wieder Serialisierungsfehler

Daher verwende ich Spark für die Stimmungsanalyse und erhalte immer wieder Fehler mit den Serialisierern, die (glaube ich) zum Weitergeben von Python-Objekten verwendet werden. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in …

7 apache-spark pyspark sentiment-analysis

6

Welcher Kreuzvalidierungstyp eignet sich am besten für das Problem der binären Klassifizierung?

Datensatz sieht aus wie: 25000 Beobachtungen Bis zu 15 Prädiktoren verschiedener Typen: numerisch, kategorial für mehrere Klassen, binär Zielvariable ist binär Welche Kreuzvalidierungsmethode ist typisch für diese Art von Problemen? Standardmäßig verwende ich K-Fold. Wie viele Falten reichen in diesem Fall aus? (Eines der Modelle, die ich benutze, ist zufällige …

7 classification cross-validation

1

Umgang mit verschiedenen Textdaten

Ich arbeite derzeit mit einem Datensatz mit einer Vielzahl von Dokumentlängen - von einem einzelnen Wort bis zu einer ganzen Textseite. Darüber hinaus variieren die grammatikalische Struktur und die Verwendung von Interpunktion von Dokument zu Dokument erheblich. Ziel ist es, diese Dokumente in eine von etwa 10 bis 15 Kategorien …

7 classification nlp

1

Lineare Regression in R Mapreduce (RHadoop)

Ich bin neu bei RHadoop und auch bei RMR ... Ich musste einen Mapreduce-Job in R Mapreduce schreiben. Ich habe versucht zu schreiben, aber während der Ausführung gibt es einen Fehler. Versuchen Sie, die Datei von hdfs zu lesen Error: Error in mr(map = map, reduce = reduce, combine = …

7 machine-learning r apache-hadoop map-reduce

2

Schwierigkeiten, Sklearn und Pandas in einfache Kaggle-Aufgaben zu integrieren

Ich versuche, das Modul sklearn_pandas zu verwenden, um meine Arbeit in Pandas zu erweitern und einen Zeh in maschinelles Lernen zu tauchen, aber ich habe Probleme mit einem Fehler, den ich nicht wirklich zu beheben verstehe. Ich habe den folgenden Datensatz für Kaggle durchgearbeitet . Es handelt sich im Wesentlichen …

7 python pandas scikit-learn

1

CNN oder Viola-Jones zur Gesichtserkennung

Ich habe mich gefragt, da CNNs jede bildbezogene Aufgabe dominiert haben. Wird der Viola-Jones-Gesichtsdetektor immer noch als Stand der Technik angesehen oder haben CNNs seine Leistung übertroffen?

6 convnet

1

Wie werden mit CNN extrahierte Features an RNN übergeben?

Ich habe Wortbilder wie folgt: Nehmen wir an, es ist ein 256x64Bild. Mein Ziel ist es, den Text aus dem Bild zu extrahieren, 73791096754314441539wie es eine OCR im Grunde tut. Ich versuche ein Modell zu bauen, das Wörter aus Bildern erkennen kann. Wenn ich ein Wort sage, kann es eines …

6 neural-network deep-learning tensorflow rnn ocr