Ich habe eine Tabelle mit zwei Spalten X und Y. Jede Zeile repräsentiert eine aggregierte Statistik für eine Instanz. Ich führe eine neue Spalte als Z = X / Y ein, eine weitere wichtige Information zur Instanz. Jetzt möchte ich die Gesamtstatistik der Instanzen (dh Mittelwert) präsentieren.
Hier habe ich ein Problem: Welches sollte ich unter Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) verwenden, um den Mittelwert von Z darzustellen? Es könnte einfach Mittelwert (X / Y) sein, nur weil Z = X / Y ist.
Ich habe jedoch zwei Bedenken:
- Mittelwert (Y) * Mittelwert (Z)! = Mittelwert (X); es macht es den Menschen schwer, den Zahlen zu vertrauen.
- Die Unterschiede zwischen Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) sind signifikant. Sagen die Unterschiede selbst statistisch etwas Bedeutendes aus?
// Ich aktualisiere meinen Fall.
Die Tabelle speichert die Benutzerdatensätze auf einem System. Benutzer können Daten darauf hochladen.
- X: Die Anzahl der Uploads
- Y: Das Volumen der Uploads
- Z: Y / X; Volumen pro Upload
Was ich tun möchte, ist, ein solches System mit Workloads zu simulieren, die dem realen ähnlich sind.
Ich erstelle einfach N Instanzen von Benutzern (N darf nicht zu groß sein) mit X '= Mittelwert (X) und Z' = Mittelwert (Z).
Während der Simulation lädt jeder Benutzer Daten des Gesamtvolumens hoch: (X ') * (Z').
Wenn ich dann die Simulationsergebnisse aggregiere, erhalte ich: Mittelwert (Y ')! = Mittelwert (Y).