Ich habe eine Datenbank aus meiner Facebook-Anwendung und versuche, mithilfe von maschinellem Lernen das Alter der Benutzer basierend auf den von ihnen bevorzugten Facebook-Websites einzuschätzen.
Es gibt drei entscheidende Merkmale meiner Datenbank:
Die Altersverteilung in meinem Trainingsset (insgesamt 12.000 Benutzer) ist auf jüngere Benutzer ausgerichtet (dh ich habe 1157 Benutzer im Alter von 27 und 23 Benutzern im Alter von 65 Jahren).
Viele Sites haben nicht mehr als 5 Likers (ich habe die FB-Sites mit weniger als 5 Likers herausgefiltert).
Es gibt viel mehr Funktionen als Beispiele.
Meine Fragen lauten also: Welche Strategie würden Sie vorschlagen, um die Daten für die weitere Analyse vorzubereiten? Sollte ich eine Art Dimensionsreduktion durchführen? Welche ML-Methode ist in diesem Fall am besten geeignet?
Ich verwende hauptsächlich Python, daher sind Python-spezifische Hinweise sehr willkommen.