Als «continuous-data» getaggte Fragen

Eine Zufallsvariable Xwird als stetig bezeichnet, wenn die Menge der möglichen Werte unzählig ist und die Wahrscheinlichkeit, dass ein bestimmter Wert angenommen wird, Null ist ( für jede reelle Zahl ). Eine Zufallsvariable ist genau dann stetig, wenn ihre kumulative Wahrscheinlichkeitsverteilungsfunktion eine stetige Funktion ist. P(X=x)=0x

6
Korrelationen mit ungeordneten kategorialen Variablen
Ich habe einen Datenrahmen mit vielen Beobachtungen und vielen Variablen. Einige von ihnen sind kategorisch (ungeordnet) und die anderen sind numerisch. Ich suche nach Assoziationen zwischen diesen Variablen. Ich konnte die Korrelation für numerische Variablen berechnen (Spearman-Korrelation), aber: Ich weiß nicht, wie ich die Korrelation zwischen ungeordneten kategorialen Variablen messen …



3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
Ist es jemals sinnvoll, kategoriale Daten als fortlaufend zu behandeln?
Bei der Beantwortung dieser Frage zu diskreten und fortlaufenden Daten habe ich zu Recht festgestellt, dass es selten sinnvoll ist, kategoriale Daten als fortlaufend zu behandeln. Auf den ersten Blick scheint das selbstverständlich zu sein, aber Intuition ist oft ein schlechter Leitfaden für Statistiken, oder zumindest meiner. Jetzt frage ich …


4
Vorhersage mit kontinuierlichen und kategorialen Funktionen
Einige Vorhersagemodelltechniken sind eher für den Umgang mit kontinuierlichen Prädiktoren ausgelegt, während andere für den Umgang mit kategorialen oder diskreten Variablen besser geeignet sind. Natürlich gibt es Techniken, um einen Typ in einen anderen umzuwandeln (Diskretisierung, Dummy-Variablen usw.). Gibt es jedoch Vorhersagemodelltechniken, mit denen beide Eingabetypen gleichzeitig verarbeitet werden können, …

2
Kontinuierliche Verallgemeinerung der negativen Binomialverteilung
Die negative Binomialverteilung (NB) ist für nicht negative ganze Zahlen definiert und hat die WahrscheinlichkeitsmassenfunktionIst es sinnvoll, eine kontinuierliche Verteilung auf nicht negative Reelle zu betrachten, die durch dieselbe Formel definiert sind (wobei durch )? Der Binomialkoeffizient kann als ein Produkt von umgeschrieben werden , das für jedes reelle gut …

2
Wann sollten wir kontinuierliche unabhängige Variablen / Features diskretisieren / binieren und wann nicht?
Wann sollten wir unabhängige Variablen / Features diskretisieren / binieren und wann nicht? Meine Versuche, die Frage zu beantworten: Im Allgemeinen sollten wir nicht binieren, da Binning Informationen verlieren wird. Binning erhöht tatsächlich den Freiheitsgrad des Modells, sodass es nach dem Binning zu einer Überanpassung kommen kann. Wenn wir ein …


1
Wie wählt man in einem geplanten Experiment zwischen ANOVA und ANCOVA?
Ich führe ein Experiment durch, das Folgendes beinhaltet: DV: Scheibenverbrauch (kontinuierlich oder kategorisch) IV: Gesunde Nachricht, ungesunde Nachricht, keine Nachricht (Kontrolle) (3 Gruppen, denen zufällig Personen zugewiesen werden - kategorisch) Dies ist eine manipulierte Nachricht über die Gesundheit des Slice. Die folgenden IVs können als individuelle Differenzvariablen betrachtet werden: Impulsivität …



1
Wie kann man die Korrelation zwischen Ordnungszahl und stetiger Variable richtig einschätzen?
Ich möchte die Korrelation schätzen zwischen: Eine Ordnungsvariable: Die Probanden werden gebeten, ihre Präferenz für 6 Obstsorten auf einer Skala von 1 bis 5 zu bewerten (von sehr widerlich bis sehr schmackhaft). Im Durchschnitt verwenden die Probanden nur 3 Punkte der Skala. Eine kontinuierliche Variable: Dieselben Probanden werden gebeten, diese …


3
wenn
Ich weiß, dass für die stetige Variable P[X=x]=0P[X=x]=0P[X=x]=0 . Aber ich kann mir nicht vorstellen, dass wenn P[X=x]=0P[X=x]=0P[X=x]=0 , es unendlich viele mögliche xxx . Und warum werden ihre Wahrscheinlichkeiten unendlich klein?


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 



5
Wahrscheinlichkeit, dass eine kontinuierliche Zufallsvariable einen festen Punkt annimmt
Ich bin in einer einführenden Statistikklasse, in der die Wahrscheinlichkeitsdichtefunktion für kontinuierliche Zufallsvariablen definiert wurde als P{X∈B}=∫Bf(x)dxP{X∈B}=∫Bf(x)dxP\left\{X\in B\right\}=\int_B f\left(x\right)dx . Ich verstehe, dass das Integral von ∫aaf(x)dx=0∫aaf(x)dx=0\int\limits_a^af(x)dx=0aber ich kann dies nicht mit meiner Intuition einer kontinuierlichen Zufallsvariablen korrigieren. Angenommen, X ist die Zufallsvariable, die der Anzahl der Minuten ab dem …


2
Verwenden Sie die Poisson-Regression für kontinuierliche Daten?
Kann die Poisson-Verteilung verwendet werden, um sowohl kontinuierliche als auch diskrete Daten zu analysieren? Ich habe einige Datensätze, in denen Antwortvariablen kontinuierlich sind, aber eher einer Poisson-Verteilung als einer Normalverteilung ähneln. Die Poisson-Verteilung ist jedoch eine diskrete Verteilung und befasst sich normalerweise mit Zahlen oder Zählungen.


5
Warum sollte Binning um jeden Preis vermieden werden?
Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link . Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten. Derzeit arbeite ich …

1
Ist es jemals eine gute Idee, beim Training einer logistischen Regression „Teilkredit“ (kontinuierliches Ergebnis) zu geben?
Ich trainiere eine logistische Regression, um vorherzusagen, welche Läufer am ehesten ein anstrengendes Langstreckenrennen beenden werden. Sehr wenige Läufer absolvieren dieses Rennen, daher habe ich ein schweres Klassenungleichgewicht und eine kleine Auswahl an Erfolgen (vielleicht ein paar Dutzend). Ich habe das Gefühl, ich könnte ein gutes "Signal" von den Dutzenden …

3
Wie interpretiert man eine Hazard Ratio aus einer kontinuierlichen Variablen - Differenzeinheit?
Ich lese einen Artikel, der Hazard Ratios für kontinuierliche Variablen zeigt, bin mir aber nicht sicher, wie ich die angegebenen Werte interpretieren soll. Mein derzeitiges Verständnis der Gefährdungsquoten ist, dass die Zahl die relative Wahrscheinlichkeit von [Ereignis] unter bestimmten Bedingungen darstellt. Beispiel: Wenn die Hazard Ratio für den Tod durch …

2
Korrelation zwischen dichotomer und kontinuierlicher Variable
Ich versuche die Korrelation zwischen einer dichotomen und einer kontinuierlichen Variablen zu finden. Bei meinen Grundlagenarbeiten habe ich festgestellt, dass ich einen unabhängigen t-Test verwenden muss und die Voraussetzung dafür ist, dass die Verteilung der Variablen normal sein muss. Ich führte einen Kolmogorov-Smirnov-Test zum Testen der Normalität durch und stellte …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.