Hintergrund:
Ich führe derzeit eine große Anzahl von Parametervariationsexperimenten durch. Sie werden in Python 2.6+ mit numpy ausgeführt. Diese Experimente werden ungefähr 2 Wochen dauern.
Ich variiere ungefähr 3 Parameter (unabhängige Variablen) über einen Wertebereich. Ich behebe 6 weitere unabhängige Variablen (vorerst) Ich berichte über 4 abhängige Variablen.
Einer der Parameter, die ich verändere, ist die Verteilung auf mehrere Prozesse (und Computer). Für jeden dieser Parameter generiere ich eine separate csv
Datei, wobei jede Zeile die Werte aller Variablen enthält (einschließlich unabhängig, fest und abhängig). Bei allen Variationen werden voraussichtlich etwa 80.000 Datenzeilen generiert
Die meiste Zeit betrachte ich nur den Wert einer der abhängigen Variablen, aber ich behalte die anderen bei, da sie erklären können, was passiert, wenn etwas Unerwartetes passiert.
In einer früheren Version dieses Experiments, bei der nur zwei Parameter (jeweils nur zwei Werte) berücksichtigt wurden, habe ich diese csv
Datei in ein Tabellenkalkulationsprogramm kopiert und eine Reihe von Kopien eingefügt, um eine Tabelle mit nur der abhängigen Variablen zu erstellen, an der ich interessiert war Ich mache einige unangenehme Dinge in MS-Excel, damit ich nach Formeln sortieren kann. Dies war schmerzhaft genug für die 6 Versuchsergebnisse, die ich hatte. Bis dieser Lauf beendet ist, werde ich 2 Größenordnungen mehr Ergebnisse haben.
Frage:
Ich dachte, wenn ich fertig bin, könnte ich alle Ergebnisse aus den csv
Dateien in eine Datenbank kopieren und die Teile abfragen, die interessant sind. Nehmen Sie diese Ergebnisse und legen Sie sie zur Analyse in eine Tabelle. Erstellen von Diagrammen, Finden von Ergebnissen im Verhältnis zu den Kontrollergebnissen usw.
Denke ich in die richtige Richtung? (Tun das die Leute?)
Meine Datenbank foo ist heutzutage ziemlich verrostet, selbst wenn es gut war, habe ich MS-Access verwendet. Ich wollte auch dafür MS-Access verwenden.