Wir studieren maschinelles Lernen durch maschinelles Lernen: Eine probabilistische Perspektive (Kevin Murphy). Während der Text die theoretische Grundlage jedes Algorithmus erklärt, sagt er selten, in welchem Fall welcher Algorithmus besser ist, und wenn ja, sagt er nicht, wie man sagt, in welchem Fall ich bin.
Zum Beispiel wurde mir bei der Auswahl des Kernels gesagt, dass ich eine explorative Datenanalyse durchführen soll, um zu beurteilen, wie komplex meine Daten sind. In einfachen zweidimensionalen Daten kann ich zeichnen und sehen, ob ein linearer oder ein radialer Kern geeignet ist. Aber was tun in höheren Dimensionen?
Was meinen die Leute im Allgemeinen, wenn sie sagen "Lernen Sie Ihre Daten kennen", bevor sie sich für einen Algorithmus entscheiden? Im Moment kann ich nur zwischen Klassifikation und Regressionsalgorithmus und linearem und nicht linearem Algorithmus unterscheiden (was ich nicht überprüfen kann).
BEARBEITEN: Obwohl meine ursprüngliche Frage die Faustregel betrifft, wurde ich gebeten, weitere Informationen zu meinem speziellen Problem bereitzustellen.
Daten: Ein Panel mit jeder Zeile als Ländermonat (insgesamt ~ 30.000 Zeilen, die ~ 165 Länder über ~ 15 Jahre abdecken).
Antwort: 5 binäre Variablen von Interesse (z. B. ob Protest / Putsch / Krise usw. in diesem Monat stattfinden).
Features: ~ 400 Variablen (eine Mischung aus kontinuierlichen, kategorialen und binären Variablen), die eine Reihe von Merkmalen der beiden vorherigen Ländermonate beschreiben (es kann eine längere Verzögerung erzeugt werden). Wir verwenden nur verzögerte Variablen, da das Ziel die Vorhersage ist.
Beispiele sind: Wechselkurs, BIP-Wachstum (kontinuierlich), freie Presse (kategorisch), Demokratie, Konflikt zwischen Nachbarn (binär). Beachten Sie, dass viele dieser 400 Features verzögerte Variablen sind.