Der Vorschlag weist zahlreiche Mängel auf. Hier ist vielleicht der größte.
Angenommen, Sie erfassen Daten und sehen folgende Werte:
2 , 3 , 1
Der Mittelwert ist bisher .6 / 3 = 2
Dann kommt ein Ausreißer:
2,3,1,1000
Also ersetzen Sie es mit dem Mittelwert:
2,3,1,2
Die nächste Nummer ist gut:
2,3,1,2,7
Jetzt ist der Mittelwert 3. Moment mal, der Mittelwert ist jetzt 3, aber wir haben 1000 durch einen Mittelwert von 2 ersetzt, nur weil er als vierter Wert vorkam. Was ist, wenn wir die Reihenfolge der Proben ändern?
2,3,1,7,1000
(2+3+1+7)/4=13/4
Das Problem ist, dass das falsche Datum, das wir anstelle von 1000 ersetzen, von den anderen Daten abhängt . Das ist ein erkenntnistheoretisches Problem, wenn die Proben unabhängige Messungen darstellen sollen.
nnnnn
Grundsätzlich ist das Wegschneiden von Ergebnissen, die nicht passen, eine Sache (und kann gerechtfertigt werden, wenn dies konsequent nach einem Algorithmus und nicht nach sich ändernden Stimmungsschwankungen des Experimentators erfolgt).
Die völlige Verfälschung von Ergebnissen ist aus philosophischen, erkenntnistheoretischen und ethischen Gründen zu beanstanden.
Es kann einige mildernde Umstände geben, die damit zu tun haben, wie die Ergebnisse verwendet werden. Nehmen wir zum Beispiel an, dass diese Substitution von Ausreißern durch den aktuellen Mittelwert Teil des Algorithmus eines eingebetteten Computers ist, der die Implementierung eines Regelungssystems ermöglicht. (Es werden einige Systemausgaben abgetastet und dann Eingaben angepasst, um eine Steuerung zu erreichen.) Alles ist in Echtzeit, und daher muss für einen bestimmten Zeitraum anstelle fehlender Daten etwas bereitgestellt werden. Wenn dieses Fudging dabei hilft, Störungen zu überwinden und einen reibungslosen Betrieb zu gewährleisten, ist alles in Ordnung.
Hier ist ein weiteres Beispiel aus der digitalen Telefonie: PLC (Packet Loss Concealment). Mist passiert und Pakete gehen verloren, aber die Kommunikation erfolgt in Echtzeit. Die SPS synthetisiert gefälschte Stimmen auf der Grundlage der aktuellen Tonhöheninformationen aus korrekt empfangenen Paketen. Wenn also ein Sprecher den Vokal "aaa" sagte und dann ein Paket verloren ging, kann die SPS das fehlende Paket auffüllen, indem sie das "aaa" für die Rahmendauer extrapoliert (sagen wir 5 oder 10 Millisekunden oder was auch immer). Das "aaa" ist so, dass es der Stimme des Sprechers ähnelt. Dies ist analog zur Verwendung eines "Mittelwerts" als Ersatz für Werte, die als schlecht angesehen werden. Es ist eine gute Sache; Es ist besser als das Ein- und Ausschneiden des Tons und trägt zur Verständlichkeit bei.
Wenn das Fudging von Daten Teil eines Programms ist, Menschen anzulügen, um Fehlleistungen zu vertuschen, dann ist das etwas anderes.
Wir können also nicht unabhängig von der Anwendung darüber nachdenken: Wie werden die Statistiken verwendet? Werden Substitutionen zu ungültigen Schlussfolgerungen führen? Gibt es ethische Implikationen?