Für unser Abschlussprojekt in Data Science haben wir Folgendes vorgeschlagen:
Geben Sie den Amazon Reviews-Datensatz an . Wir planen, einen Algorithmus zu entwickeln (der grob auf dem personalisierten PageRank basiert), der eine strategische Position für die Platzierung von Anzeigen bei Amazon festlegt. Zum Beispiel gibt es bei Amazon Millionen von Produkten. Und der Datensatz gibt Ihnen eine Vorstellung davon, welche Produkte verwandt sind, welche Produkte zusammengebracht, zusammen betrachtet usw. wurden. (Wir können ein Diagramm mit diesen Informationen erstellen, die auch angezeigt und auch gekauft wurden.) Außerdem erhalten Sie die Bewertungen, die mit jedem Produkt verknüpft sind 14 Jahre. Mit all diesen Informationen werden wir Produkte bei Amazon bewerten / bewerten. Jetzt sind Sie ein Anbieter bei Amazon, der den Traffic auf seiner Produktseite verbessern möchte. Unser Algorithmus hilft Ihnen dabei, strategische Positionen in der Grafik zu identifizieren, an denen Sie Ihre Anzeige platzieren können, um maximalen Traffic abzuleiten.
Die Frage unseres Professors lautet nun: Wie werden Sie Ihren Algorithmus ohne echte Benutzer validieren? Wir sagten-
Wir können eine feste Gruppe von Benutzern modellieren. Einige Benutzer folgen
also_bought
undalso_viewed
verlinken häufiger zum dritten Hop als zum ersten oder fünften Hop. Dort ist das Verhalten der Benutzer normal verteilt. Einige andere Benutzer navigieren kaum über den ersten Sprung hinaus. Dieses Benutzerverhalten ist exponentiell verteilt.
Unser Professor sagte: - Unabhängig von der Verteilung, der die Benutzer folgen, navigieren Benutzer über Links für ähnliche Produkte. Ihr Ranking-Algorithmus berücksichtigt auch die Ähnlichkeit von s / w 2-Produkten mit Ranking-Produkten. Die Verwendung dieses Validierungsalgorithmus ist also ein bisschen cheating
. Kommen Sie mit einem anderen Benutzerverhalten, das realistischer und orthogonal zum Algorithmus ist.
Irgendwelche Ideen, wie man das Verhalten der Benutzer modelliert? Gerne gebe ich weitere Details zum Algo bekannt.