Data Science

3

Unausgeglichene Klassen - Wie kann man falsch negative Ergebnisse minimieren?

Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ). Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative Verhältnisse. Random Forest hat die höchste Gesamtprognosegenauigkeit (99,5%) und …

11 classification random-forest decision-trees unbalanced-classes

3

Problem mit IPython / Jupyter unter Spark (nicht erkannter Alias)

Ich arbeite daran, eine Reihe von VMs einzurichten, um mit Spark zu experimentieren, bevor ich Geld für den Aufbau eines Clusters mit Hardware ausgeben kann. Kurzer Hinweis: Ich bin ein Akademiker mit einem Hintergrund im angewandten maschinellen Lernen und arbeite ein bisschen in der Datenwissenschaft. Ich benutze die Tools zum …

11 python apache-spark pyspark ipython

4

Wie vermeide ich eine Überanpassung in zufälligen Wäldern?

Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …

11 machine-learning data-mining r predictive-modeling random-forest

7

LinkedIn Web Scraping

Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …

11 data-mining social-network-analysis crawling scraping

5

Wie werden monatliche, tägliche und wöchentliche Daten zusammengeführt?

Google Trends gibt wöchentliche Daten zurück, daher muss ich einen Weg finden, diese mit meinen täglichen / monatlichen Daten zusammenzuführen. Was ich bisher getan habe, ist, jede Serie in tägliche Daten aufzuteilen, zum Beispiel: von: 2013-03-03 - 2013-03-09 37 zu: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 …

11 time-series

3

Feldbewusste Faktorisierungsmaschinen

Kann jemand erklären, wie feldbewusste Faktorisierungsmaschinen (FFM) mit Standardfaktorisierungsmaschinen (FM) verglichen werden? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

11 machine-learning recommender-system

1

Lösungen für die kontinuierliche Online-Clusteridentifikation?

Lassen Sie mich Ihnen ein Beispiel für eine hypothetische Online-Clustering-Anwendung zeigen: Zum Zeitpunkt n sind die Punkte 1,2,3,4 dem blauen Cluster A und die Punkte b, 5,6,7 dem roten Cluster B zugeordnet. Zum Zeitpunkt n + 1 wird ein neuer Punkt a eingeführt, der dem blauen Cluster A zugewiesen wird, …

11 machine-learning clustering

2

Neuronales Netz zur Serverüberwachung

Ich schaue auf Pybrain, um Server-Monitor-Alarme zu nehmen und die Grundursache eines Problems zu ermitteln. Ich bin zufrieden mit dem Training mit überwachtem Lernen und dem Kuratieren der Trainingsdatensätze. Die Daten sind ungefähr so strukturiert: Servertyp A # 1 Alarmtyp 1 Alarmtyp 2 Servertyp A # 2 Alarmtyp 1 Alarmtyp …

11 machine-learning neural-network

2

Lösen eines Gleichungssystems mit spärlichen Daten

Ich versuche, einen Satz von Gleichungen zu lösen, der 40 unabhängige Variablen (x1, ..., x40) und eine abhängige Variable (y) enthält. Die Gesamtzahl der Gleichungen (Anzahl der Zeilen) beträgt ~ 300, und ich möchte nach dem Satz von 40 Koeffizienten suchen, der den gesamten quadratischen Fehlersummen zwischen y und dem …

11 machine-learning regression algorithms genetic

3

Erstellen Sie einen binären Klassifikator mit nur positiven und unbeschrifteten Daten

Ich habe 2 Datensätze, einen mit positiven Instanzen dessen, was ich erkennen möchte, und einen mit unbeschrifteten Instanzen. Welche Methoden kann ich verwenden? Angenommen, wir möchten die Erkennung von Spam-E-Mails anhand einiger strukturierter E-Mail-Merkmale verstehen. Wir haben einen Datensatz mit 10000 Spam-E-Mails und einen Datensatz mit 100000 E-Mails, für die …

11 classification semi-supervised-learning

1

Fisher Scoring v / s Koordinatenabstieg für MLE in R.

Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …

11 machine-learning r algorithms optimization

4

Feature-Extraktionstechnik - Zusammenfassen einer Datensequenz

Ich baue oft ein Modell (Klassifizierung oder Regression) auf, in dem ich einige Prädiktorvariablen habe, bei denen es sich um Sequenzen handelt, und ich habe versucht, technische Empfehlungen zu finden, um sie bestmöglich zusammenzufassen und als Prädiktoren in das Modell aufzunehmen. Angenommen, es wird ein Modell erstellt, um vorherzusagen, ob …

11 machine-learning feature-selection time-series

4

Ist GLM ein statistisches oder maschinelles Lernmodell?

Ich dachte, dass das generalisierte lineare Modell (GLM) als statistisches Modell angesehen werden würde, aber ein Freund sagte mir, dass einige Artikel es als maschinelles Lernen klassifizieren. Welches ist wahr (oder genauer)? Jede Erklärung wäre willkommen.

11 machine-learning statistics glm

3

Können für MongoDB geschriebene Algorithmen zur Kartenreduzierung später auf Hadoop portiert werden?

In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein Ansatz besteht darin, die Daten aus MongoDB in einen Hadoop-Cluster zu extrahieren …

11 scalability apache-hadoop map-reduce mongodb

4

Algorithmus zum Generieren von Klassifizierungsregeln

Wir haben also das Potenzial für eine Anwendung für maschinelles Lernen, die ziemlich gut in die traditionelle Problemdomäne passt, die durch Klassifizierer gelöst wird, dh wir haben eine Reihe von Attributen, die ein Element und einen "Bucket" beschreiben, in dem sie landen. Anstatt jedoch Modelle zu erstellen Bei Wahrscheinlichkeiten wie …

11 machine-learning classification