Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ). Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative Verhältnisse. Random Forest hat die höchste Gesamtprognosegenauigkeit (99,5%) und …
Ich arbeite daran, eine Reihe von VMs einzurichten, um mit Spark zu experimentieren, bevor ich Geld für den Aufbau eines Clusters mit Hardware ausgeben kann. Kurzer Hinweis: Ich bin ein Akademiker mit einem Hintergrund im angewandten maschinellen Lernen und arbeite ein bisschen in der Datenwissenschaft. Ich benutze die Tools zum …
Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …
Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell …
Google Trends gibt wöchentliche Daten zurück, daher muss ich einen Weg finden, diese mit meinen täglichen / monatlichen Daten zusammenzuführen. Was ich bisher getan habe, ist, jede Serie in tägliche Daten aufzuteilen, zum Beispiel: von: 2013-03-03 - 2013-03-09 37 zu: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 …
Lassen Sie mich Ihnen ein Beispiel für eine hypothetische Online-Clustering-Anwendung zeigen: Zum Zeitpunkt n sind die Punkte 1,2,3,4 dem blauen Cluster A und die Punkte b, 5,6,7 dem roten Cluster B zugeordnet. Zum Zeitpunkt n + 1 wird ein neuer Punkt a eingeführt, der dem blauen Cluster A zugewiesen wird, …
Ich schaue auf Pybrain, um Server-Monitor-Alarme zu nehmen und die Grundursache eines Problems zu ermitteln. Ich bin zufrieden mit dem Training mit überwachtem Lernen und dem Kuratieren der Trainingsdatensätze. Die Daten sind ungefähr so strukturiert: Servertyp A # 1 Alarmtyp 1 Alarmtyp 2 Servertyp A # 2 Alarmtyp 1 Alarmtyp …
Ich versuche, einen Satz von Gleichungen zu lösen, der 40 unabhängige Variablen (x1, ..., x40) und eine abhängige Variable (y) enthält. Die Gesamtzahl der Gleichungen (Anzahl der Zeilen) beträgt ~ 300, und ich möchte nach dem Satz von 40 Koeffizienten suchen, der den gesamten quadratischen Fehlersummen zwischen y und dem …
Ich habe 2 Datensätze, einen mit positiven Instanzen dessen, was ich erkennen möchte, und einen mit unbeschrifteten Instanzen. Welche Methoden kann ich verwenden? Angenommen, wir möchten die Erkennung von Spam-E-Mails anhand einiger strukturierter E-Mail-Merkmale verstehen. Wir haben einen Datensatz mit 10000 Spam-E-Mails und einen Datensatz mit 100000 E-Mails, für die …
Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …
Ich baue oft ein Modell (Klassifizierung oder Regression) auf, in dem ich einige Prädiktorvariablen habe, bei denen es sich um Sequenzen handelt, und ich habe versucht, technische Empfehlungen zu finden, um sie bestmöglich zusammenzufassen und als Prädiktoren in das Modell aufzunehmen. Angenommen, es wird ein Modell erstellt, um vorherzusagen, ob …
Ich dachte, dass das generalisierte lineare Modell (GLM) als statistisches Modell angesehen werden würde, aber ein Freund sagte mir, dass einige Artikel es als maschinelles Lernen klassifizieren. Welches ist wahr (oder genauer)? Jede Erklärung wäre willkommen.
In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein Ansatz besteht darin, die Daten aus MongoDB in einen Hadoop-Cluster zu extrahieren …
Wir haben also das Potenzial für eine Anwendung für maschinelles Lernen, die ziemlich gut in die traditionelle Problemdomäne passt, die durch Klassifizierer gelöst wird, dh wir haben eine Reihe von Attributen, die ein Element und einen "Bucket" beschreiben, in dem sie landen. Anstatt jedoch Modelle zu erstellen Bei Wahrscheinlichkeiten wie …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.