Ich habe in diesem Semester einen Kurs zum maschinellen Lernen, und der Professor hat uns gebeten, ein reales Problem zu finden und es mit einer der in der Klasse eingeführten Methoden des maschinellen Lernens zu lösen:
- Entscheidungsbäume
- Künstliche neurale Netzwerke
- Support-Vektor-Maschinen
- Instanzbasiertes Lernen ( kNN , LWL )
- Bayesian Networks
- Verstärkung lernen
Ich bin einer der Fans von Stackoverflow und Stackexchange und weiß, dass Datenbank-Dumps dieser Websites der Öffentlichkeit zur Verfügung gestellt werden, weil sie fantastisch sind! Ich hoffe, ich konnte eine gute maschinelle Lernaufgabe für diese Datenbanken finden und lösen.
Meine Idee
Eine Idee, die mir in den Sinn kam, ist die Vorhersage von Tags für Fragen basierend auf den eingegebenen Wörtern im Fragekörper. Ich denke, das Bayesianische Netzwerk ist das richtige Werkzeug, um Tags für eine Frage zu lernen, muss aber genauer untersucht werden. Auf jeden Fall sollten ihm nach der Lernphase, in der der Benutzer die Frage eingegeben hat, einige Tags vorgeschlagen werden.
Bitte sag mir :
Ich möchte der Statistik-Community als erfahrenen Leuten zwei Fragen zu ML stellen:
Denken Sie, dass Tag-Vorschläge zumindest ein Problem sind, das zu lösen ist? Hast du irgendwelche Ratschläge dazu? Ich bin ein wenig besorgt, weil stackexchange eine solche Funktion noch nicht implementiert.
Haben Sie eine andere / bessere Idee für das ML-Projekt, das auf der StackExchange-Datenbank basiert? Ich finde es sehr schwierig, etwas aus StackExchange-Datenbanken zu lernen .
Überlegungen zu Datenbankfehlern: Ich möchte darauf hinweisen, dass die Datenbanken zwar riesig sind und viele Instanzen aufweisen, aber nicht perfekt und fehleranfällig sind. Das offensichtliche ist das Alter der Benutzer, das unzuverlässig ist. Selbst ausgewählte Tags für die Frage sind nicht 100% korrekt. Wie auch immer, wir sollten den Prozentsatz der Richtigkeit der Daten bei der Auswahl eines Problems berücksichtigen.
Überlegungen zum Problem selbst: Mein Projekt sollte sich nicht darum handeln data-mining
oder so ähnlich. Es sollte nur eine Anwendung von ML-Methoden in der realen Welt sein.