Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht.
Es ist wahrscheinlich, dass ich auf hochdimensionale Daten stoße (~ 300k Dimensionen). Ich betrachte die Verwendung von SVM und insbesondere Random Forest als Klassifizierungsalgorithmen.
Würden R-Bibliotheken auf meine Problemgröße skaliert?
Vielen Dank.
EDIT 1: Zur Verdeutlichung, mein Datensatz wird wahrscheinlich 1000-3000 Zeilen (vielleicht ein bisschen mehr) und 10 Klassen haben.
EDIT 2: Da ich sehr neu bei R bin, werde ich die Poster bitten, wo immer möglich, genauer zu sein. Wenn Sie beispielsweise einen Workflow / eine Pipeline vorschlagen, erwähnen Sie nach Möglichkeit die R-Bibliotheken, die an jedem Schritt beteiligt sind. Einige zusätzliche Hinweise (auf Beispiele, Beispielcode usw.) würden das i-Tüpfelchen auf dem i-Tüpfelchen sein.
EDIT 3: Zunächst einmal danke allen für Ihre Kommentare. Und zweitens, ich entschuldige mich, hätte ich vielleicht mehr Kontext für das Problem geben sollen. Ich bin neu in R, aber nicht so sehr in der Textklassifizierung. Ich habe bereits einen Teil meiner Daten mit tm- Paket vorverarbeitet (Stemming, Entfernen von Stoppwörtern, Konvertierung von tf-idf usw.) , um ein Gefühl für die Dinge zu bekommen. tm war sogar bei etwa 200docs so langsam, dass ich mir Sorgen um die Skalierbarkeit machte. Dann habe ich angefangen mit FSelector zu spielen und selbst das war sehr langsam. Und das ist der Punkt, an dem ich mein OP gemacht habe.
EDIT 4: Mir ist gerade in den Sinn gekommen, dass ich 10 Klassen und ungefähr 300 Schulungsunterlagen pro Klasse habe. Tatsächlich baue ich die termXdoc-Matrix aus dem gesamten Schulungssatz auf, was zu einer sehr hohen Dimensionalität führt. Aber wie wäre es, wenn Sie jedes 1-aus-k-Klassifizierungsproblem auf eine Reihe von binären Klassifizierungsproblemen reduzieren? Das würde die Anzahl der Trainingsdokumente (und damit die Dimensionalität) in jedem der k-1-Schritte drastisch reduzieren, nicht wahr? Ist dieser Ansatz also gut? Wie verhält es sich in Bezug auf die Genauigkeit zur üblichen Implementierung in mehreren Klassen?