Was sind die bewährten Methoden zum Speichern, Speichern und Weitergeben von Modellen für maschinelles Lernen?
In Python speichern wir im Allgemeinen die Binärdarstellung des Modells mit pickle oder joblib. Modelle können in meinem Fall ~ 100Mo groß sein. Außerdem kann die JobLib ein Modell in mehreren Dateien speichern, es sei denn, Sie legen fest compress=1
( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-fileses-which-one-is-the- korrekt ).
Wenn Sie jedoch die Zugriffsrechte auf Modelle steuern und Modelle von verschiedenen Computern verwenden möchten, wie können Sie diese am besten speichern?
Ich habe ein paar Möglichkeiten:
- Speichern Sie sie als Dateien und legen Sie sie dann mit Git LFS in einem Repository ab
- Speichern Sie sie in einer SQL-Datenbank als Binärdateien:
- Zum Beispiel in Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB
- Dies ist auch die vom SQL Server-Team empfohlene Methode:
- https://docs.microsoft.com/de-de/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDFS