Ich bin auf folgendes Problem gestoßen, das ich eher typisch finde.
Ich habe einige große Datenmengen, beispielsweise einige Millionen Zeilen. Ich führe eine nicht triviale Analyse durch, z. B. eine SQL-Abfrage, die aus mehreren Unterabfragen besteht. Ich erhalte ein Ergebnis, das zum Beispiel besagt, dass die Eigenschaft X mit der Zeit zunimmt.
Nun gibt es zwei mögliche Dinge, die dazu führen könnten:
- X nimmt tatsächlich mit der Zeit zu
- Ich habe einen Fehler in meiner Analyse
Wie kann ich testen, ob das erste passiert ist und nicht das zweite? Ein schrittweiser Debugger, selbst wenn einer vorhanden ist, hilft nicht weiter, da Zwischenergebnisse immer noch aus Millionen von Zeilen bestehen können.
Das einzige, was ich mir vorstellen konnte, war, irgendwie einen kleinen synthetischen Datensatz mit der Eigenschaft zu generieren, die ich testen und die Analyse als Komponententest ausführen möchte. Gibt es Werkzeuge dafür? Insbesondere, aber nicht beschränkt auf SQL.