Binning bedeutet, eine kontinuierliche Variable in diskrete Kategorien zu gruppieren. Es wird insbesondere in Bezug auf Histogramme verwendet, könnte aber auch allgemeiner im Sinne einer Vergröberung verwendet werden.
Angenommen, ich möchte anhand eines Histogramms sehen, ob meine Daten exponentiell sind (dh nach rechts verschoben sind). Abhängig davon, wie ich die Daten gruppiere oder bin, kann es zu sehr unterschiedlichen Histogrammen kommen. Ein Satz von Histogrammen wird den Anschein erwecken, dass die Daten exponentiell sind. Ein anderer Satz wird …
Ich frage mich, welchen Wert es hat, eine kontinuierliche Prädiktorvariable zu nehmen und sie zu zerlegen (z. B. in Quintile), bevor sie in einem Modell verwendet wird. Es scheint mir, dass wir durch Binning der Variablen Informationen verlieren. Ist dies nur so, dass wir nichtlineare Effekte modellieren können? Wenn wir …
In diesem Kommentar schrieb Nick Cox: Klasseneinteilung ist eine alte Methode. Während Histogramme nützlich sein können, macht es eine moderne Statistiksoftware einfach und ratsam, Verteilungen an die Rohdaten anzupassen. Binning wirft nur Details weg, die entscheidend dafür sind, welche Verteilungen plausibel sind. Der Kontext dieses Kommentars schlägt die Verwendung von …
Wann sollten wir unabhängige Variablen / Features diskretisieren / binieren und wann nicht? Meine Versuche, die Frage zu beantworten: Im Allgemeinen sollten wir nicht binieren, da Binning Informationen verlieren wird. Binning erhöht tatsächlich den Freiheitsgrad des Modells, sodass es nach dem Binning zu einer Überanpassung kommen kann. Wenn wir ein …
Abgesehen von dem offensichtlichen Problem der geringen Leistung des Chi-Quadrats unter diesen Umständen, stellen Sie sich vor, Sie führen einen Chi-Quadrat-Test für eine bestimmte Dichte mit nicht festgelegten Parametern durch, indem Sie die Daten bündeln. Nehmen wir der Vollständigkeit halber eine Exponentialverteilung mit unbekanntem Mittelwert und einer Stichprobengröße von beispielsweise …
Nehmen wir an, ich habe zwei Verteilungen, die ich im Detail vergleichen möchte, dh auf eine Weise, die Form, Skalierung und Verschiebung leicht sichtbar macht. Eine gute Möglichkeit, dies zu tun, besteht darin, für jede Verteilung ein Histogramm zu zeichnen, sie auf die gleiche X-Skala zu setzen und untereinander zu …
Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …
Ich versuche, mich mit dem Ergebnis des Bayes-Theorems zu beschäftigen, das auf das klassische Mammogramm-Beispiel angewendet wurde, wobei die Drehung des Mammogramms perfekt ist. Das ist, Inzidenz von Krebs: .01.01.01 Wahrscheinlichkeit einer positiven Mammographie bei Krebs des Patienten: 111 Wahrscheinlichkeit einer positiven Mammographie, wenn der Patient keinen Krebs hat: .01.01.01 …
Ich versuche, eine sortierte Sammlung intelligent abzulegen. Ich habe eine Sammlung von Daten. Aber ich weiß, dass diese Daten in ungleich große Behälter passen. Ich weiß nicht, wie ich die Endpunkte intelligent auswählen soll, damit sie richtig zu den Daten passen. zum Beispiel:mnnnmmm Angenommen, ich habe 12 Artikel in meiner …
Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link . Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten. Derzeit arbeite ich …
Ich möchte die Beziehung zwischen zwei Variablen, A und B, unter Verwendung gegenseitiger Informationen quantifizieren. Die Berechnung erfolgt durch Gruppieren der Beobachtungen (siehe Beispiel-Python-Code unten). Welche Faktoren bestimmen jedoch, welche Anzahl von Behältern angemessen ist? Ich brauche eine schnelle Berechnung, damit ich nicht einfach viele Behälter verwenden kann, um auf …
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …
Ich implementiere verschiedene Algorithmen, um die beste Anzahl von Bins für Histogramme zu schätzen. Die meisten von mir implementierten sind auf der Wikipedia-Seite "Histogramm" im Abschnitt " Anzahl der Fächer und Breite " * beschrieben. Ich habe ein Problem mit Doanes Formel: 1 + log(n) + log(1 + kurtosis(data) * …
Wenn Sie sich ein Histogramm als Schätzung der Dichtefunktion vorstellen, ist es sinnvoll, sich die Behältergröße als einen Parameter vorzustellen, der die lokale Struktur dieser Funktion einschränkt? Gibt es auch eine bessere Möglichkeit, diese Argumentation zu artikulieren?
Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten). Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.