Benchmark-Datensätze für die kollaborative Filterung


9

Ich möchte einen neuen Algorithmus für die kollaborative Filterung testen . Ein typischer Anwendungsfall besteht darin, Filme zu empfehlen, die auf den Vorlieben von Benutzern basieren, die dem jeweiligen Benutzer ähnlich sind.

Welche gängigen Benchmark-Datensätze verwenden Forscher häufig, um ihre Algorithmen zu testen? Ich weiß, dass in Computer Vision häufig MNIST oder CIFAR verwendet werden, aber ich habe keine ähnlichen Datensätze für die kollaborative Filterung gefunden.


1
Haben Sie sich den Netflix-Preisdatensatz angesehen? Ja, der Wettbewerb ist längst vorbei und wurde aus Datenschutzgründen von der offiziellen Website gestrichen. Sie können immer noch versuchen, es an anderen Orten zu finden.
Vladislavs Dovgalecs

Kaggle.com hat eine Menge. Suchen Sie einfach nach "Empfehlung in: Datensatz" oder "Empfehlung in: Wettbewerb".
ran8

Antworten:


8

Die offensichtliche Antwort wäre der Netflix-Preisdatensatz, es wird viel recherchiert und die meisten CF-Algorithmen haben bekannte Ergebnisse.

Es gibt andere verfügbare Datensätze, die normalerweise als Benchmark verwendet werden:

  • Movie Lens Dataset : Ein Datensatz mit 20 Millionen Bewertungen, der zum Benchmarking von CF-Algorithmen verwendet wird.

  • Jester Dataset : Ein Witzempfehlungsdatensatz mit mehr als 6 Millionen Bewertungen;

  • Unter diesem Link finden Sie viele weitere Datensätze


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.