Gibt es laufende Projekte, die Stack Exchange für maschinelles Lernen verwenden?

22

Gibt es laufende KI-Projekte, die Stack Exchange für maschinelles Lernen verwenden?

machine-learning ai-design

— Techidiot
quelle

6

Es scheint sicherlich Forschungsprojekte gegeben zu haben, die irgendeine Form von Text Mining / Information Retrieval / etc. und StackExchange-Sites.

Einige Beispiele, die ich über google / google scholar finden konnte (es ist unwahrscheinlich, dass sie in der Nähe einer vollständigen Liste liegen):

TACIT: Ein Open-Source-Tool zur Analyse, Durchforstung und Interpretation von Text beschreibt zahlreiche Text-Crawler für eine Vielzahl von Websites (einschließlich Stack Exchange-Websites, aber auch Twitter, Reddit usw.). Auf den ersten Blick geht es anscheinend in erster Linie darum, zu crawlen und danach nichts mehr mit den Daten zu tun. Die Suche nach anderen Artikeln, die diesen Artikel in Google Scholar zitieren, kann jedoch interessante Ergebnisse bringen. Dies kann zu Artikeln führen, die diesen Artikel zum Crawlen verwendet haben und anschließend mehr mit den Daten gemacht haben.
Spreu vom Weizen: Charakterisierung und Modellierung gelöschter Fragen zum Stapelüberlauf beschreibt die Untersuchung der Qualität von Stapelüberlauffragen in gewissem Sinne (insbesondere die Vorhersage, ob beispielsweise Fragen gelöscht werden). Ich bin mir nicht 100% sicher, ob dies auch das ist, woran Sie interessiert sind. Es geht um Stapelaustausch + maschinelles Lernen, wie im Titel Ihrer Frage angegeben, aber nicht unbedingt darum, Informationen aus Antworten zu behalten, wie im Text Ihrer Frage angegeben.
Text Mining Stackoverflow: Ein Einblick in Herausforderungen und fachliche Schwierigkeiten, mit denen Informatik-Lernende konfrontiert sind, beschreibt Text Mining auch in StackOverflow-Fragen und -Antworten. Auf den ersten Blick geht es jedoch in erster Linie um Themenerkennung usw., nicht unbedingt um automatisierte Fragen Antworten zum Beispiel.
Verschiedene Facetten des textbasierten automatisierten Fragebeantwortungssystems scheinen eine relativ neue Umfrage zum Thema der automatisierten Fragebeantwortungsforschung zu sein. Stack Exchange wird einige Male als Beispiel für eine Datenquelle für solche Systeme erwähnt, scheint jedoch nicht anderweitig verwendet zu werden.
Bei der Erweiterung von PythonQA mit dem Wissen von StackOverflow geht es speziell darum, Fragen und Antworten von StackOverflow in ein automatisiertes Frage- und Antwortsystem für Fragen zur Programmiersprache Python zu integrieren . Das Papier enthält einen Link zu weiteren Details ( http://pythonqas2.epl.di.uminho.pt ), aber dieser Link scheint inaktiv zu sein. Ich nehme an, Sie können jederzeit versuchen, sich direkt an die Autoren zu wenden, wenn Sie weitere Informationen dazu wünschen.

Im Allgemeinen scheinen automatisierte Fragebeantwortungssysteme immer noch ein ziemlich aktives Forschungsgebiet zu sein, kein triviales / "gelöstes" Problem. StackExchange kann eine Datenquelle für solche Systeme sein, aber es gibt auch viele andere Datenquellen (Wikipedia, Quora usw.).

— Dennis Soemers
quelle

3

DuckDuckGo lernt Antworten auf technische Fragen von StackExchange. Geben Sie eine technische Frage wie "Laufende Projekte verwenden Stapelaustausch" in DuckDuckGo ein und es wird eine hervorgehobene Zusammenfassung der Antwort auf der rechten Seite angezeigt . Und die Ente hat eine offene API für viele (100s) Fragen, die Datenquellen beantworten. Oder gehen Sie direkt zur StackExchange API .

Projekte können die Daten aus der SE open API verwenden, sofern sie ihren Anforderungen entsprechen TOU entsprechen . Stellen Sie im Grunde nur sicher, dass Ihre Benutzer erkennen können, dass die Daten von Stack Exchange stammen. Die Urheberrechtslizenz kann auch Ihre Fähigkeit einschränken, den Inhalt des Textes zu ändern, beispielsweise mit einem erfahrenen abstraktiven Zusammenfassungsprogramm. Vielleicht hebt Duck.com deshalb nur Keywords hervor.

Das Datenschutzgesetz ist im Fluss, insbesondere, wenn es um die Daten geht, die Sie an eine Website übermittelt haben, und um die daraus abgeleiteten Modelle für maschinelles Lernen. Mit den neuen europäischen Daten- und Datenschutzbestimmungen können Sie alle Daten herunterladen oder löschen, die Sie an eine Site wie Stack Exchange senden.

— Kochfelder
quelle