Ich denke darüber nach, Python-Bibliotheken für meine maschinellen Lernexperimente zu verwenden. Bisher hatte ich mich auf WEKA verlassen, war aber insgesamt ziemlich unzufrieden. Dies ist in erster Linie darauf zurückzuführen, dass ich festgestellt habe, dass WEKA nicht so gut unterstützt wird (sehr wenige Beispiele, Dokumentation ist spärlich und Community-Support ist meiner Erfahrung nach weniger wünschenswert) und dass ich mich in schwierigen Situationen ohne Hilfe befunden habe. Ein weiterer Grund, warum ich über diesen Schritt nachdenke, ist, dass ich Python wirklich mag (ich bin neu in Python) und nicht auf das Programmieren in Java zurückgreifen möchte.
Also meine Frage ist, was sind die mehr
- umfassend
- skalierbar (100k Features, 10k Beispiele) und
- gut unterstützte Bibliotheken für ML in Python da draußen?
Ich bin besonders an der Textklassifizierung interessiert und möchte daher eine Bibliothek verwenden, die eine gute Sammlung von Klassifizierern, Feature-Auswahlmethoden (Informationsgewinn, Chi-Sqaured usw.) und Textvorverarbeitungsfunktionen (Stemming, Entfernen von Stoppwörtern) enthält , tf-idf usw.).
Basierend auf den letzten E-Mail-Threads hier und anderswo habe ich mich bisher mit PyML, Scikits-Learn und Orange befasst. Wie waren die Erfahrungen der Menschen in Bezug auf die oben genannten drei Metriken?
Irgendwelche anderen Vorschläge?