Was ist der Unterschied zwischen Normalisierung und Standardisierung?

118

Bei der Arbeit haben wir darüber gesprochen, da mein Chef noch nie von Normalisierung gehört hat. In der linearen Algebra scheint sich Normalisierung auf die Teilung eines Vektors durch seine Länge zu beziehen. Und in der Statistik scheint sich Standardisierung auf die Subtraktion eines Mittels zu beziehen, das dann durch seine SD dividiert wird. Aber sie scheinen auch mit anderen Möglichkeiten austauschbar zu sein.

Wenn Sie eine Art Universal-Partitur erstellen, die aus verschiedenen Metriken besteht, die unterschiedliche Mittel und SDs haben, würden Sie sie normalisieren, standardisieren oder etwas anderes? Eine Person sagte mir, dass es nur darum geht, jede Metrik einzeln durch ihre SD zu dividieren. Dann summiere die beiden. Daraus ergibt sich eine Gesamtbewertung, anhand derer beide Metriken beurteilt werden können. $2$

Angenommen, Sie hatten die Anzahl der Personen, die mit der U-Bahn zur Arbeit fuhren (in NYC), und die Anzahl der Personen, die zur Arbeit fuhren (in NYC).

Train ⟶ x

$\text{Train} \longrightarrow x$

Car ⟶ y

$\text{Car} \longrightarrow y$

Wenn Sie eine allgemeine Bewertung erstellen möchten, um Verkehrsschwankungen schnell zu melden, können Sie nicht einfach und hinzufügen, da es VIEL mehr Personen geben wird, die mit dem Zug fahren. In NYC leben 8 Millionen Menschen plus Touristen. Das sind Millionen von Menschen, die täglich mit dem Zug fahren, und Hunderttausende von Menschen in Autos. Sie müssen also in einem ähnlichen Maßstab transformiert werden, um verglichen zu werden. $\text{mean}(x)$ $\text{mean}(y)$

Wenn $\text{mean}(x) = 8,000,000$

und $\text{mean}(y) = 800,000$

Würden Sie & dann summieren? Würden Sie & dann summieren? Oder würden Sie dann jede durch ihre jeweilige SD-Summe dividieren? Um zu einer Zahl zu gelangen, die, wenn sie schwankt, die gesamten Verkehrsschwankungen darstellt. $x$ $y$ $x$ $y$

Jeder Artikel oder Kapitel von Büchern als Referenz wäre sehr dankbar. VIELEN DANK!

Auch hier ist ein weiteres Beispiel dafür, was ich versuche zu tun.

Stellen Sie sich vor, Sie sind Studiendekan und besprechen die Zulassungsvoraussetzungen. Möglicherweise möchten Sie Schüler mit mindestens einem bestimmten GPA und einem bestimmten Testergebnis. Es wäre schön, wenn sie beide auf der gleichen Skala wären, denn dann könnten Sie die beiden einfach addieren und sagen: "Jeder mit mindestens einer 7.0 kann zugelassen werden." Auf diese Weise kann ein angehender Student mit einem GPA-Wert von 4,0 eine Testnote von 3,0 erreichen und trotzdem zugelassen werden. Umgekehrt, wenn jemand einen 3,0-GPA hatte, konnte er immer noch mit einem 4,0-Testergebnis zugelassen werden.

Aber so ist es nicht. Die ACT ist auf einer 36-Punkte-Skala und die meisten GPAs sind auf 4.0 (einige sind 4.3, ja ärgerlich). Da ich ACT und GPA nicht einfach hinzufügen kann, um eine Art Universal Score zu erhalten, wie kann ich sie transformieren, damit sie hinzugefügt werden können, und so einen Universal Admission Score erstellen. Und dann könnte ich als Dekan einfach automatisch jeden akzeptieren, der eine bestimmte Punktzahl überschreitet. Oder sogar automatisch alle akzeptieren, deren Punktzahl unter den besten 95% liegt ... diese Art von Dingen.

Wäre das Normalisierung? Standardisierung? oder einfach durch ihre SD dividieren und dann summieren?

descriptive-statistics normalization standardization

— Chris
quelle

4

Der letzte Teil der Frage klingt so, als würden Sie versuchen, eine Bewertung aus mehreren Attributen zu erstellen . Weitere Informationen hierzu finden Sie in den Fragen und Antworten unter stats.stackexchange.com/q/9137 und stats.stackexchange.com/q/9358 . Beachten Sie insbesondere, dass weder Normalisierung noch Standardisierung eine direkte Relevanz für das Dekanatsproblem haben.

— whuber

65

Durch die Normalisierung werden die Werte in einen Bereich von [0,1] skaliert. Dies kann in einigen Fällen nützlich sein, in denen alle Parameter dieselbe positive Skala haben müssen. Die Ausreißer aus dem Datensatz gehen jedoch verloren.

X_{c h a n g e d} = \frac{X - X_{m i n}}{X_{m a x} - X_{m i n}}

$X_{changed} = \frac{X - X_{min}}{X_{max}-X_{min}}$

Standardization rescales Daten einen Mittelwert haben ( ) von 0 und eine Standardabweichung ( ) von 1 (Einheitsvarianz). $\mu$ $\sigma$

X_{c h a n g e d} = \frac{X - μ}{σ}

$X_{changed} = \frac{X - \mu}{\sigma}$

Für die meisten Anwendungen wird eine Standardisierung empfohlen.

— Vivek Kumar
quelle

7

Können Sie bitte erklären, warum "die Ausreißer aus dem Datensatz verloren gehen", wenn die Daten normalisiert werden?

— Anfänger

3

Ausreißer in diesem Fall der Neuskalierung würden das Ergebnis beeinflussen und nicht verloren gehen.

— Feras

@Lerner Stellen Sie sich vor, Sie haben [1 2 3 4 5 1000 2 4 5 2000 ...]. Der normalisierte Wert von 1000 Datenpunkten würde kleiner werden, da wir

— Uhr

3

@COLDICE Ich denke, es hängt vom verwendeten Normalisierungsalgorithmus ab. Wenn Sie beispielsweise jede Zahl in Ihrem Datensatz durch den Maximalwert (z. B. 2000) dividieren, liegen sie zwischen 0 und 1, und dies würde keine Ausreißer betreffen.

— Alisson

3

Ich denke, dass dies keine Ausreißer betrifft, da dies sonst in Software zur Erkennung von Anomalien nicht möglich wäre.

— Alisson

44

In der Geschäftswelt bedeutet "Normalisierung" normalerweise, dass der Wertebereich "auf 0,0 bis 1,0 normalisiert" ist. "Standardisierung" bedeutet normalerweise, dass der Wertebereich "standardisiert" ist, um zu messen, um wie viele Standardabweichungen der Wert vom Mittelwert abweicht. Dem würde jedoch nicht jeder zustimmen. Erklären Sie Ihre Definitionen am besten, bevor Sie sie verwenden.

In jedem Fall muss Ihre Transformation etwas Nützliches bieten.

Haben Sie in Ihrem Zug / Auto-Beispiel etwas davon, zu wissen, wie viele Standardabweichungen von ihrem Mittelwert jeder Wert liegt? Wenn Sie diese "standardisierten" Maße als xy-Diagramm darstellen, wird möglicherweise eine Korrelation angezeigt (siehe die erste Grafik rechts):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Wenn ja, bedeutet das etwas für Sie?

Was haben diese Skalen gemeinsam, wenn Sie einen GPA von einer Skala zu einer anderen Skala "gleichsetzen" möchten? Mit anderen Worten, wie können Sie diese Minima in Äquivalente und die Maxima in Äquivalente umwandeln?

Hier ist ein Beispiel für "Normalisierung":

Normalisierungslink

Ist es sinnvoll, die ACT- und GPA-Werte unterschiedlich zu wägen, sobald Sie Ihre GPA- und ACT-Werte in austauschbarer Form erhalten? Wenn ja, welche Gewichtung bedeutet Ihnen etwas?

Bearbeiten 1 (05/03/2011) ======================================== =

Zuerst würde ich die von whuber oben vorgeschlagenen Links überprüfen . Die Quintessenz ist, dass Sie in beiden Ihrer Zwei-Variablen-Probleme eine "Äquivalenz" zwischen einer Variablen und der anderen finden müssen. Und eine Möglichkeit, eine Variable von der anderen zu unterscheiden. Mit anderen Worten, selbst wenn Sie dies zu einer einfachen linearen Beziehung vereinfachen können, benötigen Sie "Gewichte", um eine Variable von der anderen zu unterscheiden.

Hier ist ein Beispiel für ein Problem mit zwei Variablen:

Multi-Attribute-Dienstprogramme

Wenn Sie auf der letzten Seite sagen können, dass standardisierter Zugverkehr im U1(x)Vergleich zu standardisiertem Autoverkehr U2(y)"additiv unabhängig" ist, können Sie möglicherweise mit einer einfachen Gleichung davonkommen, wie zum Beispiel:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Wobei k1 = 0,5 bedeutet, dass Sie dem standardisierten Auto- / Zugverkehr gegenüber gleichgültig sind. Ein höherer k1 würde bedeuten, dass der Zugverkehr U1(x)wichtiger ist.

Wenn diese beiden Variablen jedoch nicht "additiv unabhängig" sind, müssen Sie eine kompliziertere Gleichung verwenden. Eine Möglichkeit ist auf Seite 1 dargestellt:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

In beiden Fällen müssen Sie sich ein U(x, y)sinnvolles Hilfsprogramm einfallen lassen .

Die gleichen allgemeinen Gewichtungs- / Vergleichskonzepte gelten für Ihr GPA / ACT-Problem. Auch wenn sie "normalisiert" und nicht "standardisiert" sind.

Eine letzte Ausgabe. Ich weiß, dass Ihnen das nicht gefallen wird, aber die Definition des Begriffs "additiv unabhängig" finden Sie auf Seite 4 des folgenden Links. Ich habe nach einer weniger geekigen Definition gesucht, aber keine gefunden. Sie könnten sich umsehen, um etwas Besseres zu finden.

Additiv unabhängig

Zitiere den Link:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Wie oben in dieser Antwort vorgeschlagen, kann eine Korrelation auftreten, wenn Sie einen standardisierten Zugverkehr im Vergleich zu einem standardisierten Autoverkehr in einem xy-Diagramm darstellen. Wenn ja, dann stecken Sie mit der obigen nichtlinearen Nutzengleichung oder etwas ähnlichem fest.

— bill_080
quelle

Okay. Du hast recht. Am besten erkläre ich meine Definitionen. Und wenn ich noch einmal darüber nachdenke, sind es nicht die Definitionen, die ich brauche. Was ich brauche, ist die geeignete Methode zum Erstellen von 1 Universal-Partitur. Egal, ob es sich um einen Zulassungs- oder einen Verkehrswert handelt. Wie geht man vor, um eine universelle Metrik zu erstellen, die eine Funktion anderer Variablen ist, die transformiert wurden, um beide auf eine ähnliche Skala zu bringen? Und mach dir keine Sorgen über die Gewichte. Ich verstehe, dass auch nur gerade Summierung die Metriken 1/1 gewichtet. Aber das ist mir im Moment weniger ein Anliegen.

— Chris

@ Chris, ich habe meine Antwort oben als Bearbeitung hinzugefügt.

— bill_080

2

(+1) Gute Bearbeitung. @Chris: Vielleicht interessieren Sie die Notizen zu einer kurzen Reihe von PowerPoint-Folien hier : Dies ist eine Präsentation zu dem Thema, das ich nicht-technischen Personen gegeben habe. Ich erwähne es, weil es einige Illustrationen und Anleitungen zum "Erstellen einer universellen Metrik" enthält.

— whuber

Multi-Attribut Dienstprogramme Link ist tot, können Artikel hier gefunden werden web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/...

— mgilbert

6

Die Antwort ist einfach, aber Sie werden es nicht mögen: es kommt darauf an. Wenn Sie 1 Standardabweichung von beiden Werten gleich bewerten, ist die Standardisierung der richtige Weg (Hinweis: Sie studieren tatsächlich , weil Sie durch eine Schätzung der SD der Grundgesamtheit dividieren ).

Andernfalls ist die Standardisierung wahrscheinlich ein guter erster Schritt. Anschließend können Sie einem der Punkte mehr Gewicht verleihen, indem Sie ihn mit einem gut ausgewählten Faktor multiplizieren.

— Nick Sabbe
quelle

Sie sagen also, beginnen Sie zumindest mit dem, was ich als Standardisierung (Studentisierung) beschrieben habe, und passen Sie dann die Gewichte so an, dass sie den Daten / dem Szenario am besten entsprechen? Das macht Sinn. Ich verstehe nur nicht, warum ich mich durch den SD teilen würde. Und als ich recherchierte, fand ich etwas, das als standardisierte mittlere Differenz bezeichnet wurde ... und ich habe mich nur verwirrt. Es scheint, als sollte es einfach sein. Sie legen beide entweder auf Skala A oder eine auf derselben Skala wie die andere und summieren dann. Aber nein. Stattdessen bin ich verwirrt und das ganze Wiki ist für den Moment aus.

— Chris

0

Verwenden Sie den geometrischen Mittelwert, um das GPA / ACT- oder das Zug / Auto-Problem zu lösen .

n√ (a1 × a2 × ... × an)

Wo a*ist der Wert aus der Verteilung und nist der Index der Verteilung.

Dieser geometrische Mittelwert stellt sicher, dass jeder Wert über seine Skala hinaus gleichermaßen zum Mittelwert beiträgt. Weitere Informationen finden Sie unter Geometrischer Mittelwert

— LingxB
quelle

3

Ich sehe nicht, dass der geometrische Mittelwert für die vom OP beschriebenen Situationen geeignet wäre.

— gung

1

Ich bin mit Gung einverstanden. Der geometrische Mittelwert ist keine Lösung für dieses Problem.

— Ferdi

Das geometrische Mittel verhindert die Verringerung des Beitrags kleinerer Zahlen. Daher kann es eine Alternative zur Standardisierung oder Normalisierung sein, wenn ungleiche Maßstäbe kombiniert werden müssen.

— RNSO

0

In meinem Bereich der Datenwissenschaft ist die Normalisierung eine Transformation von Daten, die einen einfachen Vergleich der nachgelagerten Daten ermöglicht. Es gibt viele Arten von Normalisierungen. Scaling ist einer von ihnen. Sie können die Daten auch protokollieren oder andere Aktionen ausführen. Die Art der Normalisierung, die Sie verwenden, hängt vom gewünschten Ergebnis ab, da alle Normalisierungen die Daten in etwas anderes umwandeln.

Hier einige Beispiele für die Normalisierung. Skalierungsnormalisierungen Quantilnormalisierung

— yevishere
quelle