Wie heißt "One-Hot" -Codierung in der wissenschaftlichen Literatur?

10

Wie heißt der Operator, der einen kategorialen Vektor nimmt und ihn mithilfe einer One-Hot-Codierung in die binäre Darstellung umwandelt? Ich frage mich, da ich eine wissenschaftliche Arbeit schreibe und dafür einen richtigen Namen brauche.

terminology categorical-encoding

— zerbrechlich
quelle

3

Dummy-Codierung ist ein anderer Name. Beim maschinellen Lernen verwendet jeder nur den einen einfachen Typ, so dass es ziemlich klar ist, was dies ist, aber es gibt andere Arten der Kontrastcodierung (ein anderer Name) mit Minus und anderen Ideen, die eine ähnliche Rolle spielen und in der Statistik verwendet werden Sie können etwas spezifischer sein.

— Gijs

7

In der Statistik und Datenanalyse wurde diese Art der kategorialen Codierung lange vor dem maschinellen Lernen als Dummy- Variablen, auch als Indikatorvariablen vom Indikatortyp bezeichnet , bezeichnet.

— ttnphns

18

Statistiker bezeichnen One-Hot-Codierung als Dummy-Codierung . Wie andere vorgeschlagen haben (einschließlich Scortchi in den Kommentaren), ist dies kein genaues Synonym, aber dies ist der Begriff, der normalerweise für die 0-1-codierten kategorialen Variablen verwendet wird.

Siehe auch: "Dummy-Variable" versus "Indikatorvariable" für nominelle / kategoriale Daten

— Tim
quelle

3

Duh !! Ich kann nicht glauben, dass ich das vergessen habe. Ich bezeichne sie auch als Indikatoren.

— Tim Atreides

2

Ich denke nicht, dass "Dummy-Codierung" ein gutes Synonym ist. Es wird entweder allgemein verwendet, um eine kategoriale Variable mit einem Satz numerischer Variablen darzustellen, oder für die "Codierung auf Referenzebene" im Unterschied zur "One-Hot-Codierung", z. B. bei Problemen mit der One-Hot-Codierung im Vergleich zur Dummy-Codierung . "Level- Mean -Codierung" (siehe Gibt es in Regressionsmodellen etwas, das als "Mean-Codierung" bezeichnet wird (wie Dummy-Codierung und Effektcodierung)? ) Bezeichnet One-Hot-Codierung, aber möglicherweise auch einen linearen Modellkontext ...

— Scortchi - Reinstate Monica

2

... stark für den allgemeinen Gebrauch.

— Scortchi - Monica wieder einsetzen

3

Ich habe noch nie eine Definition an sich gesehen, aber für mich impliziert Dummy-Variablen in der Statistik immer die Codierung von N Faktoren mit (N-1) Variablen, während One-Hot-Codierung N Faktoren mit N Variablen codiert. Dieser Unterschied ist in der Praxis enorm wichtig. Wenn man eine One-Hot-Codierung für Regressionen verwendet, würde man wegen der Abhängigkeit der Variablen Unsinn bekommen!

— Meh

2

@aginensky Obwohl die Leute auf jeden Fall genau darauf achten sollten, welche Variablen sie haben, wird eine gute Regressionsroutine unter diesen Umständen keinen Unsinn erzeugen: Sie lässt nur einen Prädiktor aus und sagt es Ihnen.

— Nick Cox

8

Das hängt von Ihrer Zielgruppe ab.

Wie Tim sagte, nennen Statistiker es Dummy-Codierung, und das würde ich erwarten, wenn ich so etwas wie ein Regressionsmodell beschreibe. "Dummy-codierte Variablen wurden hinzugefügt, um den Standort des Geschäfts anzupassen." Ich denke, es eine One-Hot-Codierung zu nennen, würde hier etwas seltsam erscheinen.

Wie ein anderer Tim ebenfalls sagte, ist One-Hot-Codierung in der Literatur zum maschinellen Lernen ziemlich verbreitet. Es impliziert schwach die Existenz von Knoten (wie in einem neuronalen Netzwerk), physischen Drähten (in einem Gerät) oder so etwas, zumindest für mich.

$\mathbb{I}_X$

— Matt Krause
quelle

6

Der Begriff stammt aus der Elektronik. Denken Sie nur, wer würde 1 "heiß" nennen? Nur diejenigen, die mit Elektrizität arbeiten, bei denen "heiß" oder "leben" bedeutet, dass elektrisches Potenzial am Kabel vorhanden ist . "One hot" bezieht sich auf das Schaltungsdesign, bei dem der diskrete elektrische Signalpegel auf einem Draht auf einem Satz von Drähten in heiß / kalt decodiert wird. Ich nehme an, einige Leute mit maschinellem Lernen und EE-Hintergrund fanden die Analogie überzeugend.

In Ökonometrie und Statistik auftreten können , dummyoder indicatorVariablen, die sehr ähnlich sind , weil diese unterschiedliche Kategorien mit ihren deutlichen Indikatoren darstellen, verwendet. Es gibt jedoch einen subtilen Unterschied. Zum Beispiel machen Sie K-1-Dummies für K-Kategorien, weil die Basiskategorie allen Dummies entspricht, die auf 0 gesetzt sind. Im Gegensatz dazu denke ich, dass Sie in einer Hot-Codierung K-Drähte haben, wobei die Basiskategorie einen eigenen Draht hat ( Variable).

— Aksakal
quelle

5

Ich bin statistisch geschult und habe kürzlich von "One-Hot-Codierung" im Bereich maschinelles Lernen / Comp Sci Lit gehört. Ich habe die einhitzige Matrix normalerweise nur als Entwurfsmatrix / Datenmatrix / Entwurfsrahmen bezeichnet.

— Tim Atreides
quelle

Haben Sie eine Referenz, die ich dafür zitieren könnte? Ich schreibe eine wissenschaftliche Publikation und möchte diese Methode für alle Leser klarstellen, da das Papier nicht für die ML-Community ist, sondern breiter.

— Fraktile

Ich kann nicht sagen, dass ich jemals "One-Hotted" als Verb gehört habe. Aber ich komme ähnlich aus einer mathematisch / statistischen Richtung dazu. (Google-Ergebnisse zu "One-Hotted" sind interessant - ich bekomme eine Mischung aus der Bedeutung des maschinellen Lernens und den Leuten, die über "One-Hotted-Up Car" sprechen.)

— Michael Lugo

3

In den Naturwissenschaften und Ingenieurwissenschaften wird es das (verallgemeinerte) Kronecker-Delta genannt .

\begin{aligned} δ_{i, j} \equiv {\begin{cases} 1 & if & i = j \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i,j} {\equiv} \begin{cases} 1 &\text{if} & i=j \\ 0 &\text{else} \end{cases} \end{align*},$

\begin{aligned} δ_{[condition]} \equiv {\begin{cases} 1 & if & [condition] \\ 0 & else \end{cases} \end{aligned} .

$\begin{align*} {\delta}_{\left[\text{condition}\right]} {\equiv} \begin{cases} 1 &\text{if} & \left[\text{condition}\right] \\ 0 &\text{else} \end{cases} \end{align*}.$

${\delta}_{i{\in}\text{category}}$

\begin{aligned} δ_{i \in category} \equiv {\begin{cases} 1 & if & i \in category \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i{\in}\text{category}} {\equiv} \begin{cases} 1 &\text{if} & i{\in}\text{category} \\ 0 &\text{else} \end{cases} \end{align*},$

δ_{i}

${\delta}_{i}$

Das Kronecker-Delta ist in Sigma / Pi / Einstein / etc. Wirklich nützlich . Notationen, da damit Begriffe bedingt angegeben werden können.

Nur um dies mit gängigen Programmierstrukturen in Verbindung zu bringen, dem Kronecker-Delta condition?1:0, wo ?:der bedingte Operator ist .

${\delta}_{i,j}$ ${\delta}_{i=j}$

— Nat
quelle

Ich sehe den Link hier nicht. Ein Hot decodiert eine Variable für jeden Zustand der Variablen in eine Menge. Wie wird das Kronecker-Delta in dieser Anwendung verwendet?

— Aksakal

{0, 1}

$\left\{0,1\right\}$

δ_{VW}

${\delta}_{\text{VW}}$

δ_{Acura}

${\delta}_{\text{Acura}}$

δ_{Honda}

${\delta}_{\text{Honda}}$

δ_{i, j}

${\delta}_{i,j}$

δ_{CompanyName, VW}

${\delta}_{\text{CompanyName},\text{VW}}$

V W

$VW$

A C U R A

$ACURA$

i = 1.. N

$i=1..N$

V W_{i}

$VW_i$

A C U R A_{i}

$ACURA_i$

i

$i$

C A R_{i}

$CAR_i$

V W_{i} = δ (C A R_{i}, V W)

$VW_i=\delta(CAR_i,VW)$

{V W}_{i}

${VW}_{i}$

{δ_{VW}}_{i}

${{\delta}_{\text{VW}}}_i$

δ_{i \in VW}

${\delta}_{i{\in}\text{VW}}$

i

$i$

1

$1$

0

$0$

2

$1$ $K$

Hier ist ein Zitat aus dem Buch,

$K$ $1$ $K$ $K$ $\textbf{x}$ $x_k$ $1$ $0$ $K = 6$ $x_3 = 1$ $\textbf{x}$

$\textbf{x} = (0, 0, 1, 0, 0, 0)^{T}$

— Kedarps
quelle