Tool zum Generieren großer Datensätze von Testdaten [geschlossen]


25

Wenn Sie versuchen, ein effizientes Datenbankdesign zu entwickeln, sollten Sie am besten zwei Beispieldatenbanken erstellen, diese mit Daten füllen und einige Abfragen ausführen, um festzustellen, welche Datenbank eine bessere Leistung erbringt.

Gibt es ein Tool, das relativ schnell große (~ 10.000 Datensätze) Testdatensätze generiert (im Idealfall direkt in die Datenbank)? Ich suche etwas, das zumindest mit MySQL funktioniert.

Antworten:


12

Das beste Tool (wenn Sie es finden können) ist DataFactory. (Leider vergriffen) Ich habe absolut entzückende (und ziemlich authentisch aussehende) Datensätze daraus generiert.

Generatedata.com ist akzeptabel, aber nicht sehr gut skalierbar.

DataGenerator ist etwas, das Sie im Auge behalten sollten.

Und obwohl der DTM-Datengenerator klobig und ein schlechter Ersatz für DataFactory ist, existiert er und wird verkauft, und ich habe ihn verwendet, um leicht akzeptable Daten zu generieren.



4

Normalerweise erstelle ich meine eigenen Daten, wobei ich einige bekannte Daten als Eingabe verwende. Wenn diese zu zufällig sind, ist dies nicht immer ein guter Test. Ich benötige Daten, die ähnlich wie mein Endprodukt verteilt werden.

Alle größeren Datenbanken, die ich optimieren muss, sind wissenschaftlicher Natur. Daher kann ich in der Regel eine andere Untersuchung als Eingabe verwenden und sie neu skalieren und Jitter hinzufügen. (z. B. Aufnehmen von Daten mit einer 5-minütigen Trittfrequenz mit Millisekunden-Genauigkeit und Umwandeln in eine 10-sekündige Trittfrequenz mit einer Millisekunden-Genauigkeit, jedoch mit einem zeitlichen Jitter von +/- 100 ms)

...

Wenn Sie jedoch nicht selbst schreiben möchten, sollten Sie sich einige der Benchmarking-Tools ansehen. Sie können sie zum Einfügen von Lots verwenden, da sie anhand eines Trainingssatzes immer wieder verwendet werden können von Datensätzen (und ignorieren Sie dann einfach die Berichte darüber, wie schnell es funktioniert hat) ... und dann können Sie dasselbe Tool verwenden, um zu testen, wie schnell die Datenbank nach dem Auffüllen ist.


3

Ich habe mysqlslap benutzt. Es räumt auch nach sich selbst auf.

Hier ist der Artikel, den ich gelesen habe, als ich damit angefangen habe.




1

Der kostengünstigste Weg ist wahrscheinlich die Verwendung eines Open Source- oder kommerziellen Datengenerators. Ich hab das früher auch immer gemacht.

Jetzt, in meinen goldenen Jahren, betrachte ich jedes Bedürfnis nach Testdaten als ein Mandat, um eine andere Skriptsprache zu lernen.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.