Ich stehe kurz vor meinem Abschluss und hatte etwas über maschinelles Lernen gelernt und damit Forschungsprojekte durchgeführt. Ich frage mich über die Best Practices in der Branche, wenn maschinelle Lernaufgaben mit großen Datenmengen (wie 100 GB oder TB) ausgeführt werden. Schätzen Sie, ob andere Datenwissenschaftler ihre Erfahrungen teilen können. Hier sind meine Fragen:
- Offensichtlich dauert das Trainieren sehr großer Datensätze länger (kann Tage oder Wochen dauern). Oft müssen wir verschiedene Modelle (SVM, Neuronales Netzwerk usw.) trainieren, um ein besseres Leistungsmodell zu vergleichen und zu finden. Ich vermute, dass wir in Industrieprojekten die Ergebnisse so schnell wie möglich erzielen wollen, aber die beste Leistung erzielen. Gibt es Tipps zur Verkürzung der Schulungs- und Testzeit? Wenn Sie die Untermenge des Datensatzes empfehlen, würde mich interessieren, wie Sie den Datensatz am besten unterteilen können, um alle oder die meisten Szenarien aus dem Datensatz abzudecken.
- Wir wissen, dass die Durchführung einer Kreuzvalidierung besser ist, da dies die Überanpassung verringern kann. Die Kreuzvalidierung benötigt jedoch auch Zeit zum Trainieren, und das mit Kreuzvalidierung trainierte Modell wird möglicherweise nicht direkt implementiert (aus der Erfahrung von Python Sklearn: Ich muss das Modell nach dem Kreuzvalidierungstest erneut mit dem Datensatz trainieren, damit es implementiert wird). Führen Sie normalerweise eine Kreuzvalidierung in Ihren Big-Data-Projekten durch oder kommen Sie mit der Aufteilung der Zugtests zurecht?
Schätzen Sie das Feedback.