Ich plane, einen SVM-Klassifikator (Scikit Linear Support Vector Machine) für die Textklassifizierung auf einem Korpus zu verwenden, der aus 1 Million beschrifteten Dokumenten besteht. Was ich vorhabe, ist, wenn ein Benutzer ein Schlüsselwort eingibt, der Klassifizierer es zuerst in eine Kategorie klassifiziert und dann eine nachfolgende Abfrage zum Abrufen von Informationen in den Dokumenten dieser Kategoriekategorie erfolgt. Ich habe ein paar Fragen:
- Wie bestätige ich, dass die Klassifizierung nicht viel Zeit in Anspruch nimmt? Ich möchte nicht, dass Benutzer Zeit darauf warten müssen, dass eine Klassifizierung abgeschlossen ist, um bessere Ergebnisse zu erzielen.
- Ist die Verwendung der Python-Scikit-Bibliothek für Websites / Webanwendungen dafür geeignet?
- Weiß jemand, wie Amazon oder Flipkart Benutzerabfragen klassifizieren, oder verwenden sie eine völlig andere Logik?