Als «binning» getaggte Fragen

Binning bedeutet, eine kontinuierliche Variable in diskrete Kategorien zu gruppieren. Es wird insbesondere in Bezug auf Histogramme verwendet, könnte aber auch allgemeiner im Sinne einer Vergröberung verwendet werden.



3
Vorteile der Verwendung von QQ-Plots gegenüber Histogrammen
In diesem Kommentar schrieb Nick Cox: Klasseneinteilung ist eine alte Methode. Während Histogramme nützlich sein können, macht es eine moderne Statistiksoftware einfach und ratsam, Verteilungen an die Rohdaten anzupassen. Binning wirft nur Details weg, die entscheidend dafür sind, welche Verteilungen plausibel sind. Der Kontext dieses Kommentars schlägt die Verwendung von …

2
Wann sollten wir kontinuierliche unabhängige Variablen / Features diskretisieren / binieren und wann nicht?
Wann sollten wir unabhängige Variablen / Features diskretisieren / binieren und wann nicht? Meine Versuche, die Frage zu beantworten: Im Allgemeinen sollten wir nicht binieren, da Binning Informationen verlieren wird. Binning erhöht tatsächlich den Freiheitsgrad des Modells, sodass es nach dem Binning zu einer Überanpassung kommen kann. Wenn wir ein …

2
Einfluss datenbasierter Bin-Grenzen auf einen Chi-Quadrat-Anpassungstest?
Abgesehen von dem offensichtlichen Problem der geringen Leistung des Chi-Quadrats unter diesen Umständen, stellen Sie sich vor, Sie führen einen Chi-Quadrat-Test für eine bestimmte Dichte mit nicht festgelegten Parametern durch, indem Sie die Daten bündeln. Nehmen wir der Vollständigkeit halber eine Exponentialverteilung mit unbekanntem Mittelwert und einer Stichprobengröße von beispielsweise …


2
Optimales Binning in Bezug auf eine bestimmte Antwortvariable
Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …

5
Interpretation des Bayes-Theorems für positive Mammographieergebnisse
Ich versuche, mich mit dem Ergebnis des Bayes-Theorems zu beschäftigen, das auf das klassische Mammogramm-Beispiel angewendet wurde, wobei die Drehung des Mammogramms perfekt ist. Das ist, Inzidenz von Krebs: .01.01.01 Wahrscheinlichkeit einer positiven Mammographie bei Krebs des Patienten: 111 Wahrscheinlichkeit einer positiven Mammographie, wenn der Patient keinen Krebs hat: .01.01.01 …


5
Warum sollte Binning um jeden Preis vermieden werden?
Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link . Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten. Derzeit arbeite ich …

2
Anzahl der Fächer bei der Berechnung der gegenseitigen Information
Ich möchte die Beziehung zwischen zwei Variablen, A und B, unter Verwendung gegenseitiger Informationen quantifizieren. Die Berechnung erfolgt durch Gruppieren der Beobachtungen (siehe Beispiel-Python-Code unten). Welche Faktoren bestimmen jedoch, welche Anzahl von Behältern angemessen ist? Ich brauche eine schnelle Berechnung, damit ich nicht einfach viele Behälter verwenden kann, um auf …

1
R lineare Regression kategoriale Variable "versteckter" Wert
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Doanes Formel für das Histogramm-Binning
Ich implementiere verschiedene Algorithmen, um die beste Anzahl von Bins für Histogramme zu schätzen. Die meisten von mir implementierten sind auf der Wikipedia-Seite "Histogramm" im Abschnitt " Anzahl der Fächer und Breite " * beschrieben. Ich habe ein Problem mit Doanes Formel: 1 + log(n) + log(1 + kurtosis(data) * …


2
Was ist die Rechtfertigung für eine unbeaufsichtigte Diskretisierung kontinuierlicher Variablen?
Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten). Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.