25

Ich habe einen Datensatz mit einer Reihe von Funktionen. Einige von ihnen sind binär aktiv oder abgefeuert, inaktiv oder ruhend), und der Rest ist ein reeller Wert, z . B. . $(1=$ $0=$ $4564.342$

Ich möchte diese Daten einem maschinellen Lernalgorithmus zuführen , damit ich alle wirklich wertvollen Funktionen -bewerten kann. Ich bekomme sie zwischen den Bereichen und ungefähr. Nun werden die binären Werte sind auch -scored, deshalb werden die Nullen werden und diejenigen geworden . $z$ $3$ $-2$ $z$ $-0.222$ $0.5555$

Ist es sinnvoll, solche binären Variablen zu standardisieren?

machine-learning normalization binary-data

— siamii
quelle

14

Das Standardisieren von Binärvariablen macht keinen Sinn. Die Werte sind beliebig; Sie bedeuten nichts an und für sich. Es kann ein Grund dafür sein, Werte wie 0 & 1 in Bezug auf numerische Stabilitätsprobleme zu wählen, aber das ist es.

— gung - Wiedereinsetzung von Monica
quelle

Was wäre, wenn sie zwischen 0 und 100 wären? Wie gesagt, sie bedeuten Dinge wie "erkanntes Gesicht" und "nicht erkanntes Gesicht", und 0-100 bedeutet das Konfidenzniveau. Ist es sinnvoll, das mit Z-Score zu bewerten?

— Siamii

Ihr 0-100-Beispiel klingt wie eine ordinale Bewertung. Es gibt ein paar Details darüber, wie man am besten mit dieser Situation umgeht und es wurde im Lebenslauf ziemlich viel besprochen. Suchen Sie auf der Ordnungszahl , um mehr zu erfahren.

— gung - Wiedereinsetzung von Monica

Nun, das Problem ist, dass nur einige der Variablen 0-100 sind. Andere sind zum Beispiel -400 - +400

— siamii

Was ist das Problem damit? Ist das ein numerisches Stabilitätsproblem?

— gung - Wiedereinsetzung von Monica

Schlagen Sie vielleicht vor, dass ich keinen Z-Score erhalte?

— Siamii

14

Eine binäre Variable mit den Werten 0, 1 kann (normalerweise) auf (value - mean) / SD skaliert werden, was vermutlich Ihr Z-Score ist.

Die offensichtlichste Einschränkung ist, dass, wenn Sie zufällig alle Nullen oder alle Einsen erhalten, das blinde Einstecken von SD bedeuten würde, dass der Z-Score unbestimmt ist. Es gibt einen Fall für die Zuweisung von Null, sofern value - mean identisch Null ist. Aber viele statistische Dinge machen nicht viel Sinn, wenn eine Variable wirklich eine Konstante ist. Im Allgemeinen besteht jedoch ein höheres Risiko, dass die Scores instabil und / oder nicht gut bestimmt sind, wenn die SD klein ist.

Ein Problem bei der besseren Beantwortung Ihrer Frage ist genau der von Ihnen in Betracht gezogene "Algorithmus für maschinelles Lernen". Es hört sich so an, als ob es sich um einen Algorithmus handelt, der Daten für mehrere Variablen kombiniert. Daher ist es normalerweise sinnvoll, sie in ähnlichen Maßstäben bereitzustellen.

(SPÄTER) Während das Original-Poster nacheinander Kommentare hinzufügt, verändert sich ihre Frage. Ich halte immer noch (Wert - Mittelwert) / SD für sinnvoll (dh nicht unsinnig) für binäre Variablen, solange die SD positiv ist. Die logistische Regression wurde jedoch später als die Anwendung bezeichnet, und für diese gibt es keinen theoretischen oder praktischen Gewinn (und in der Tat einen gewissen Verlust an Einfachheit) außer der Eingabe von binären Variablen als 0, 1. Ihre Software sollte in der Lage sein, gut damit umzugehen Das; Wenn nicht, geben Sie diese Software zugunsten eines Programms auf, das dies kann. In Bezug auf die Titelfrage: kann ja; sollte nicht.

— Nick Cox
quelle

3

Die kurze Antwort ist, dass es nichts anderes bedeutet und ich keinen Grund sehe, warum das Ändern von 0, 1 in Z-Scores in dieser Situation irgendetwas hilft. Um sich selbst zu überzeugen, versuchen Sie es in beide Richtungen und stellen Sie fest, dass sich nichts Wichtiges ändert.

— Nick Cox

3

Im Gegenteil, ich denke, die meisten Leute würden hier 0, 1 verwenden.

— Nick Cox

1

Wenn Sie eine logistische Regression durchführen, führt die Software die Standardisierung fast sicher unter der Haube durch (um bessere numerische Eigenschaften zu erzielen). Daher ist es eine gute Idee, den Binärindikator sinnvoll auszudrücken. Standardisieren klingt weder gut noch nützlich.

— whuber

1

Jede maschinelle Lernmethode, bei der Sie binäre Prädiktoren "standardisieren" müssen, ist verdächtig.

— Frank Harrell

2

Da es sich um Ihre eigene Implementierung handelt, kann Ihnen niemand eine objektive Antwort geben! Sie müssen überprüfen, wie Ihre Software die Daten behandelt, um zu entscheiden, ob eine vorherige Standardisierung sinnvoll ist.

— Whuber

3

Ein schönes Beispiel, bei dem es nützlich sein kann, auf etwas andere Weise zu standardisieren, finden Sie in Abschnitt 4.2 von Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Dies ist meistens dann der Fall, wenn die Interpretation der Koeffizienten von Interesse ist und es möglicherweise nicht viele Prädiktoren gibt.

\frac{x - μ_{x}}{2 σ_{x}},

$\frac{x-\mu_x}{2\sigma_x},$

σ

$\sigma$

\pm 0.5

$\pm 0.5$

x = 0

$x=0$

x = 1

$x=1$

σ

$\sigma$

x

$x$

— Gossets Schüler
quelle

Bitte erklären Sie "mit gleichem Anteil von 0 und 1", da die binären Variablen, die ich sehe, selten so sind.

— Nick Cox

Ich glaube nicht, dass die Proportionen wirklich einen Unterschied machen werden, sie benutzen sie nur, um das Beispiel sauberer zu machen.

— Gossets Schüler

1

Was möchten Sie standardisieren, eine binäre Zufallsvariable oder eine Proportion?

$Y:S\rightarrow \mathbb{R}$ $Y\in \lbrace 0,1\rbrace$ .

$X\in[0,1]$ $x\in \mathbb{R}^+$

— QAChip
quelle

0

In der logistischen Regression können binäre Variablen standardisiert werden, um sie mit kontinuierlichen Variablen zu kombinieren, wenn Sie allen eine nicht informative Priorität geben möchten, z. B. N ~ (0,5) oder Cauchy ~ (0,5). Es wird empfohlen, die Standardisierung wie folgt durchzuführen: Nehmen Sie die Gesamtzählung und geben Sie an

1 = Anteil von 1

0 = 1 - Anteil der Einsen.

-----

Edit: Eigentlich hatte ich überhaupt nicht recht, es ist keine Standardisierung, sondern eine Verschiebung um 0 zu zentrieren und um 1 in der unteren und oberen Bedingung zu unterscheiden. Wir können eine zentrierte "Firma A" -Variable definieren, um die Werte -0,3 und 0,7 anzunehmen.

— Carlos ST
quelle

Kann als Standardisierung keinen Sinn ergeben.

— Michael R. Chernick

Sollten Sie jemals binäre Variablen standardisieren?

-----