Warum sollte Binning um jeden Preis vermieden werden?


10

Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link .

Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten.

Derzeit arbeite ich jedoch mit der Spotify-API, die eine Reihe kontinuierlicher Vertrauensmaßnahmen für einige ihrer Funktionen enthält.

In Bezug auf ein Merkmal, "Instrumentalität", heißt es in den Referenzen:

Prognostiziert, ob ein Track keinen Gesang enthält. "Ooh" - und "aah" -Töne werden in diesem Zusammenhang als instrumental behandelt. Rap- oder Spoken-Word-Tracks sind eindeutig „vokal“. Je näher der Instrumentalitätswert an 1,0 liegt, desto wahrscheinlicher ist es, dass der Track keinen Stimminhalt enthält. Werte über 0,5 sollen Instrumentalspuren darstellen , aber das Vertrauen ist höher, wenn sich der Wert 1,0 nähert.

Angesichts der sehr linksgerichteten Verteilung meiner Daten (etwa 90% der Stichproben liegen kaum über 0) fand ich es sinnvoll, dieses Merkmal in zwei kategoriale Merkmale umzuwandeln: "instrumental" (alle Stichproben mit einem Wert über 0,5) und "non_instrumental" "(für alle Proben mit einem Wert unter 0,5).

Ist das falsch? Und was wäre die Alternative gewesen, wenn sich fast alle meine (kontinuierlichen) Daten um einen einzelnen Wert drehen? Soweit ich über Splines verstehe, würden sie auch nicht mit Klassifizierungsproblemen (was ich tue) funktionieren.


10
Das von Ihnen beschriebene Setup scheint nicht zu implizieren, dass Binning eine gute Idee ist. Sie haben selbst gesagt, dass es Informationen darüber gibt, wie nahe ein Wert an 1,0 liegt. IMHO tun Sie gut daran, ein kontinuierliches Feature zu haben, das mit der Wahrscheinlichkeit zusammenhängt, instrumental zu sein. Vielleicht können Sie Ihre Frage erweitern.
Frank Harrell

Meine Frage ist im Grunde, wann es in Ordnung ist, Binning zu verwenden, wenn überhaupt. In meinem Fall habe ich es auf der Grundlage der Domäne (instrumental / nicht instrumental) verwendet, da ich glaube, dass es aussagekräftiger ist, als zu sagen, wie nahe ein Track daran ist, instrumental zu sein (da ein Track entweder instrumental ist oder nicht). Sie haben jedoch in Punkt 8 Ihres Beitrags gegen diese Logik argumentiert. Als Neuling fällt es mir nur schwer, wirklich zu verstehen, warum das so sein sollte.
Readler

1
Ich schrieb einen langen Beitrag darüber im Zusammenhang mit der prädiktiven Modellierung: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury

Sehr informativ und gründlich, danke. Ich sehe jedoch keinen Zusammenhang mit meiner Frage (obwohl ich immer noch einige neue Erkenntnisse gewonnen habe, also ist alles in Ordnung!). Ihr Artikel spricht über Binning die Prädiktorvariablen in Regressionsprobleme und warum das eine schlechte Idee ist (was Ihre Artikel überzeugend argumentiert , gegen) und warum Splines hilft für die Regression modellieren. Ich habe gefragt, warum es schlecht ist, die Werte eines kontinuierlichen Merkmals (einer Eingabe) in einem Klassifizierungsproblem zu diskretisieren (dessen Prädiktorvariablen von Natur aus "Bins" sind, dh Klassen).
Readler

2
Wenn sich fast alle Funktionen an einem Punkt befinden, ist dies für Ihr Modell wahrscheinlich nicht hilfreich, unabhängig davon, was Sie tun.
Akkumulation

Antworten:


15

Es ist eine leichte Übertreibung zu sagen, dass das Binning um jeden Preis vermieden werden sollte , aber es ist sicherlich der Fall, dass das Binning Bin-Entscheidungen einführt, die eine gewisse Willkür in die Analyse einbringen. Mit modernen statistischen Methoden ist es im Allgemeinen nicht erforderlich, Binning durchzuführen, da alles, was mit diskretisierten "Binned" -Daten getan werden kann, im Allgemeinen mit den zugrunde liegenden kontinuierlichen Werten durchgeführt werden kann.

Die häufigste Verwendung von "Binning" in der Statistik ist die Erstellung von Histogrammen. Histogramme ähneln der allgemeinen Klasse der Kernel-Dichteschätzer (KDEs), da sie die Aggregation von Schrittfunktionen auf den ausgewählten Bins beinhalten, während die KDE die Aggregation glatterer Kernel beinhaltet. Die in einem Histogramm verwendete Schrittfunktion ist keine glatte Funktion, und es ist im Allgemeinen der Fall, dass bessere Kernfunktionen ausgewählt werden können, die nach der KDE-Methode weniger willkürlich sind, was auch bessere Schätzungen der zugrunde liegenden Dichte der Daten ergibt. Ich sage den Schülern oft, dass ein Histogramm nur die KDE eines "armen Mannes" ist. Persönlich würde ich niemals eine verwenden, da es so einfach ist, eine KDE zu erhalten, ohne die Daten zu bündeln, und dies liefert überlegene Ergebnisse ohne eine willkürliche Binning-Wahl.

Eine andere häufige Verwendung von "Binning" tritt auf, wenn ein Analyst kontinuierliche Daten in Bins diskretisieren möchte, um Analysetechniken zu verwenden, die diskrete Werte verwenden. Dies scheint das zu sein, was in dem von Ihnen zitierten Abschnitt zur Vorhersage von Stimmgeräuschen vorgeschlagen wird. In solchen Fällen kommt es durch das Binning zu einer gewissen Willkür und es kommt auch zu einem Informationsverlust. Es ist wiederum am besten, dies nach Möglichkeit zu vermeiden, indem Sie versuchen, ein Modell direkt auf den zugrunde liegenden kontinuierlichen Werten zu bilden, anstatt ein Modell auf den diskretisierten "gruppierten" Werten zu bilden.

In der Regel ist es für Statistiker wünschenswert, Analysetechniken zu vermeiden, die willkürliche Annahmen einführen, insbesondere in Fällen, in denen alternative Techniken verfügbar sind, um diese Annahmen leicht zu vermeiden. Daher stimme ich dem Gefühl zu, dass Binning im Allgemeinen nicht erforderlich ist. Es sollte sicherlich nicht um jeden Preis vermieden werden , da Kosten wichtig sind, aber es sollte im Allgemeinen vermieden werden, wenn es einfache alternative Techniken gibt, die es ermöglichen, es ohne ernsthafte Unannehmlichkeiten zu vermeiden.


Aha. Folgefrage: Wenn ich mir die Verteilung des oben erwähnten Beispiels ansehe, siehe hier (ironischerweise ein Histogramm), sehe ich einfach nicht die Nützlichkeit in einer kontinuierlichen Variablen, in der sich fast alle Stichproben um einen Wert drehen (hier 0) hat mich anfangs dazu gebracht, diese Funktion zu bündeln. Sie haben die Alternative erwähnt - würden Sie mich bitte näher erläutern oder in die richtige Richtung weisen, wo ich mehr lernen könnte?
Readler


In diesem Histogramm sehe ich überall Werte (aber ja, meistens nahe Null). Es sollte keine Unannehmlichkeiten bei der Verwendung einer Spline-Anpassung geben, und dies wird sicherlich mehr Informationen liefern. Zeichnen Sie den angepassten Spline! und wenn Sie aus irgendeinem Grund diskret sein müssen , könnte Ihnen diese Handlung dabei helfen, wie. Es kann sein, dass für Ihre spezielle Verwendung ein anderer Schnittpunkt als 0,5 besser ist.
kjetil b halvorsen

2
Ein Histogramm kann nicht korrekt als KDE ausgelegt werden. Was wäre der Kernel?
whuber

1
In Bezug auf Ihren dritten Absatz stellte sich eine ähnliche Frage, als ich versuchte, den Informationsgewinn mit einigen numerischen Daten zu berechnen. Können Sie sich diese Frage ansehen und erklären, was in dieser Situation zu tun ist? stats.stackexchange.com/questions/384684/…
Astel

4

Ich würde normalerweise stark gegen die Kategorisierung kontinuierlicher Variablen aus den Gründen argumentieren, die von anderen bemerkenswerten Frank Harrell gut ausgedrückt werden. In diesem Fall kann es jedoch hilfreich sein, sich nach dem Prozess zu fragen, der die Ergebnisse generiert hat. Es sieht so aus, als ob die meisten Werte effektiv Null sind, vielleicht mit etwas Rauschen. Einige von ihnen sind mit Lärm wieder ziemlich nahe an der Einheit. Dazwischen liegen nur sehr wenige. In diesem Fall scheint es eher gerechtfertigt zu sein, eine Kategorisierung vorzunehmen, da man argumentieren könnte, dass Modulo das Rauschen eine binäre Variable ist. Wenn man es als kontinuierliche Variable anpasst, haben die Koeffizienten eine Bedeutung in Bezug auf die Änderung der Prädiktorvariablen, aber in diesem Fall ist die Variable über den größten Teil ihres Bereichs sehr dünn besiedelt, so dass dies unattraktiv erscheint.


4
Meine kurze Antwort auf die Frage, wann das Binning in Ordnung ist, lautet: Wenn die Diskontinuitätspunkte bereits vor dem Betrachten der Daten bekannt sind (dies sind die Bin-Endpunkte) und wenn bekannt ist, dass die Beziehung zwischen x und y in jedem Bin vorhanden ist Die Länge ungleich Null ist flach.
Frank Harrell

2

Stellen Sie sich vor, Sie haben eine Uhr, die nur die Stunden anzeigt. Mit nur meine ich, dass es nur den Stundenpfeil hat, der einmal pro Stunde einen 1/12 Sprung zu einer anderen Stunde macht, es bewegt sich nicht reibungslos. Eine solche Uhr wäre nicht sehr nützlich, da Sie nicht wissen würden, ob es fünf nach zwei, halb zwei oder zehn vor drei ist. Das ist das Problem mit gruppierten Daten, es verliert Details und führt die "nervösen" Änderungen ein.


1
(+1) Ja, und fügen Sie noch das zusätzliche Problem hinzu, dass der Uhrmacher möglicherweise keine stündlichen Schritte auswählt, aber willkürlich entscheidet, dass seine Uhr in Schritten von 19 Minuten angezeigt wird, und Sie haben ein zusätzliches Problem, das über den Verlust von Informationen hinausgeht .
Ben - Reinstate Monica

2

Für einige Anwendungen, anscheinend auch für die, die Sie in Betracht ziehen, kann das Binning unbedingt erforderlich sein. Um ein Kategorisierungsproblem durchzuführen, müssen Sie natürlich irgendwann kategoriale Daten aus Ihrem Modell entfernen. Wenn Ihre Eingaben nicht alle auch kategorisch sind, müssen Sie eine Gruppierung durchführen. Betrachten Sie ein Beispiel:

Eine hoch entwickelte KI spielt Poker. Die Wahrscheinlichkeit, dass seine Hand den Händen anderer Spieler überlegen ist, wurde mit 70% bewertet. Es ist an der Reihe zu wetten, es wurde jedoch gesagt, dass es um jeden Preis ein Binning vermeiden sollte und folglich niemals eine Wette platziert. es klappt standardmäßig.

Was Sie jedoch gehört haben, kann durchaus zutreffen, da durch vorzeitiges Zusammenfassen von Zwischenwerten Informationen zurückgegeben werden, die möglicherweise erhalten geblieben sind. Wenn der endgültige Zweck Ihres Projekts darin besteht, zu bestimmen, ob Ihnen das betreffende Lied "gefällt", was durch zwei Faktoren bestimmt werden kann: "Instrumentalität" und "Rockitude", ist es wahrscheinlich besser, diese als kontinuierliche Variablen beizubehalten, bis Sie müssen "Sympathie" als kategoriale Variable herausziehen.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

oder welche Koeffizienten Sie für am besten geeignet halten oder welches andere Modell zu Ihrem Trainingssatz passt.

Wenn Sie stattdessen entscheiden, ob etwas "instrumental" (wahr oder falsch) und "rockt" (wahr oder falsch) ist, haben Sie Ihre 4 Kategorien festgelegt, bevor Sie als Tag klarstellen:

  1. Instrumental, Rocks
  2. nicht instrumentell, rockt
  3. instrumental, keine Steine
  4. nicht instrumental, keine Steine

Aber dann müssen Sie nur noch entscheiden, welche dieser 4 Kategorien Sie "mögen". Sie haben bei Ihrer endgültigen Entscheidung auf Flexibilität verzichtet.

Die Entscheidung, ob Sie entsorgen oder nicht, hängt ganz von Ihrem Ziel ab. Viel Glück.


2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

Im Zusammenhang mit der Frage des OP wäre ich zufrieden, wenn der willkürliche Schwellenwert 0,5 auf eine Vielzahl von Werten zwischen glaubwürdigen Min- und Max-Werten gesetzt würde und um zu sehen, dass die grundlegenden Ergebnisse seiner Analyse weitgehend unabhängig von der Auswahl sind.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.