Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

3
Unausgeglichene Klassen - Wie kann man falsch negative Ergebnisse minimieren?
Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ). Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative Verhältnisse. Random Forest hat die höchste Gesamtprognosegenauigkeit (99,5%) und …



7
LinkedIn Web Scraping
Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …

5
Wie werden monatliche, tägliche und wöchentliche Daten zusammengeführt?
Google Trends gibt wöchentliche Daten zurück, daher muss ich einen Weg finden, diese mit meinen täglichen / monatlichen Daten zusammenzuführen. Was ich bisher getan habe, ist, jede Serie in tägliche Daten aufzuteilen, zum Beispiel: von: 2013-03-03 - 2013-03-09 37 zu: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 …

3
Feldbewusste Faktorisierungsmaschinen
Kann jemand erklären, wie feldbewusste Faktorisierungsmaschinen (FFM) mit Standardfaktorisierungsmaschinen (FM) verglichen werden? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf


2
Neuronales Netz zur Serverüberwachung
Ich schaue auf Pybrain, um Server-Monitor-Alarme zu nehmen und die Grundursache eines Problems zu ermitteln. Ich bin zufrieden mit dem Training mit überwachtem Lernen und dem Kuratieren der Trainingsdatensätze. Die Daten sind ungefähr so ​​strukturiert: Servertyp A # 1 Alarmtyp 1 Alarmtyp 2 Servertyp A # 2 Alarmtyp 1 Alarmtyp …


3
Erstellen Sie einen binären Klassifikator mit nur positiven und unbeschrifteten Daten
Ich habe 2 Datensätze, einen mit positiven Instanzen dessen, was ich erkennen möchte, und einen mit unbeschrifteten Instanzen. Welche Methoden kann ich verwenden? Angenommen, wir möchten die Erkennung von Spam-E-Mails anhand einiger strukturierter E-Mail-Merkmale verstehen. Wir haben einen Datensatz mit 10000 Spam-E-Mails und einen Datensatz mit 100000 E-Mails, für die …

1
Fisher Scoring v / s Koordinatenabstieg für MLE in R.
Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …



3
Können für MongoDB geschriebene Algorithmen zur Kartenreduzierung später auf Hadoop portiert werden?
In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein Ansatz besteht darin, die Daten aus MongoDB in einen Hadoop-Cluster zu extrahieren …

4
Algorithmus zum Generieren von Klassifizierungsregeln
Wir haben also das Potenzial für eine Anwendung für maschinelles Lernen, die ziemlich gut in die traditionelle Problemdomäne passt, die durch Klassifizierer gelöst wird, dh wir haben eine Reihe von Attributen, die ein Element und einen "Bucket" beschreiben, in dem sie landen. Anstatt jedoch Modelle zu erstellen Bei Wahrscheinlichkeiten wie …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.