Wir haben einen Musik-Player mit unterschiedlichen Wiedergabelisten, der automatisch Titel aus der aktuellen Wiedergabeliste vorschlägt, in der ich mich befinde. Ich möchte, dass das Programm lernt, dass wenn ich den Titel überspringe, die Wahrscheinlichkeit verringert wird, dass er erneut in dieser Wiedergabeliste abgespielt wird . Ich denke, dies wird als Verstärkungslernen bezeichnet, und ich habe ein wenig über die Algorithmen gelesen und festgestellt, dass der Markov-Entscheidungsprozess (MDP) genau das zu sein scheint, was wir hier haben. Ich weiß, dass es in MDP mehr als einen Status gibt, daher dachte ich, dass dies für diesen Fall die verschiedenen Wiedergabelisten bedeuten würde. Abhängig vom Status (Wiedergabeliste), in dem ich mich befinde, werden beispielsweise die Songs ausgewählt, die seiner Meinung nach am besten passen, und "bestraft" (durch Überspringen), wenn sie falsch ausgewählt wurden.
Glaubt ihr, das ist der richtige Ansatz? Oder würden Sie einen anderen Algorithmus vorschlagen? Ist das alles überhaupt sinnvoll, sollte ich mehr Informationen geben?
Wenn es richtig klingt, möchte ich Sie um einige Tutorials oder Ansatzpunkte bitten, die sich mit MDP in R befassen. Ich habe online gesucht, aber nur die MDP-Toolbox in R gefunden und es macht für mich keinen Sinn . Hast du irgendwelche Vorschläge?