Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt.
Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu verstehen, ob Sie genügend Daten gesammelt haben, um Ihr Modell für maschinelles Lernen zu trainieren .
Diese Aussage überraschte mich, weil ich diesem Aspekt noch nie so viel Bedeutung beigemessen hatte ...
Ich habe dann im Internet nach weiteren Informationen gesucht und diesen Beitrag auf FastML.com als Faustregel gefunden, dass Sie ungefähr zehnmal so viele Dateninstanzen benötigen, wie es Funktionen gibt .
Zwei Fragen:
1 - Ist dieses Thema beim maschinellen Lernen wirklich besonders relevant ?
2 - Funktioniert die 10-fache Regel? Gibt es andere relevante Quellen für dieses Thema?