Ich habe kleinere Unit-Tests, die kleine Schnipsel aus realen Datensätzen verwenden. Ich möchte mein Programm aus einer Vielzahl von Gründen auch anhand vollständiger Datensätze testen. Das einzige Problem ist, dass ein einzelner realer Datensatz ungefähr 5 GB groß ist. Ich habe keine festen Zahlen für das gefunden, was Git-Repositories speichern können, aber das scheint zu viel zu sein.
Die Lösung, die mein Team übernommen hat, besteht darin, dass das Projekt eine Datei enthält, die einen Pfad zu einem an das Netzwerk angeschlossenen Dateisystem enthält, das unsere Testdaten enthält. Die Datei wird Git ignoriert.
Ich halte dies aus zwei Gründen für eine unvollständige Lösung. Wenn der NAS nicht funktioniert, langsam ist oder ausfällt, können wir keinen vollständigen Test durchführen. Der zweite Grund ist, dass beim ersten Klonen eines Repositorys die Komponententests fehlschlagen, sodass er herausfinden muss, wie Dinge mit einem bestimmten Namen und der zum Erstellen der Testpfaddatei verwendeten Syntax bereitgestellt werden.
Meine Frage ist also zweifach. Wie viele Daten sind zu viele Daten, um sie in der Revisionskontrolle zu speichern?
Was ist ein besserer Weg, um große Mengen an Testdaten zu verarbeiten?