Statistiken und Big Data multiple-regression

1

Angenommen, ich habe drei Datensätze der Größe :nnn y1y1y_1 = Größe von Menschen nur aus den USA y2y2y_2 = Körpergröße von Männern aus der ganzen Welt y3y3y_3 = von Frauen aus der ganzen Welt Und ich baue für jedes ein lineares Modell mit den Faktoren , :xixix_ii=1,...,ki=1,...,ki = 1,..., k …

8 regression multiple-regression ensemble aggregation

2

Warum unterscheiden sich einige Regressionsschätzungen durch einen Vorzeichenwechsel, andere jedoch nicht, wenn ich den Referenzwert ändere?

Angenommen, ich habe ein kontinuierliches Ergebnis yund zwei faktorielle Prädiktoren mit jeweils zwei Ebenen. Einer meiner kategorialen Prädiktoren drugkann zwei Ebenen haben ("A" oder "B"), der andere ist smokeYes. Wenn ich ein Regressionsmodell ausführe, kann ich die Basislinie oder den Referenzpegel drugentweder als "A" auswählen , wie in model1: set.seed(123) …

8 regression anova multiple-regression contrasts

3

Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung

Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Modellierung der Sterblichkeitsraten mithilfe der Poisson-Regression

Ich untersuche Trends (zwischen 1998 und 2011) der Sterblichkeitsraten bei Patienten mit Morbus Crohn. Jeder Patient (Fall) wurde in den Jahren 1998 bis 2011 eingeschlossen. Bei der Aufnahme wurde jeder Patient einer gesunden Kontrolle mit demselben Alter und Geschlecht zugeordnet. Ich analysiere Trends bei den Sterblichkeitsraten. Wenn ich dies direkt …

8 regression multiple-regression survival poisson-regression

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

4

Regression von Daten, die ein Datum enthalten

Ich habe einen Datensatz, der einige hundert Transaktionen von drei Lieferanten enthält, die über einen Zeitraum von drei Jahren in über 100 Ländern tätig sind. Wir haben festgestellt, dass das Verkaufsland kein wesentlicher Faktor für die erzielten Preise ist (die Produkte sind mehr oder weniger globale Waren). Alle Preise sind …

8 r time-series multiple-regression

1

Wenn Sie eine OLS-Regression für Querschnittsdaten ausführen, sollten Sie die Autokorrelation in Residuen testen?

Ich habe eine Reihe von Beobachtungen, unabhängig von der Zeit. Ich frage mich, ob ich Autokorrelationstests durchführen soll. Es scheint mir, dass es keinen Sinn macht, da meine Daten keine Zeitkomponente enthalten. Ich habe jedoch tatsächlich einen seriellen Korrelations-LM-Test versucht, der auf eine starke Autokorrelation der Residuen hinweist. Macht es …

8 multiple-regression least-squares autocorrelation residuals cross-section

1

Dummy-Codierung für Kontraste: 0,1 vs. 1, -1

Ich bitte Sie um Ihre Hilfe, um den Unterschied zwischen zwei verschiedenen Kontrasten für dichotome Variablen zu verstehen. Auf dieser Seite: http://www.psychstat.missouristate.edu/multibook/mlt08.htm unter "Dichotome Prädiktorvariablen" gibt es zwei Möglichkeiten, dichotome Prädiktoren zu codieren: Verwenden des Kontrasts 0,1 oder des Kontrasts 1, -1 . Ich verstehe die Unterscheidung hier irgendwie (0,1 …

8 multiple-regression categorical-data categorical-encoding

3

Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?

Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Parallele gerade Linien auf Residuum vs. angepasstem Diagramm

Ich habe ein Problem mit multipler Regression, das ich mit einer einfachen multiplen Regression zu lösen versucht habe: model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data) Dies scheint die 85% der Varianz (gemäß R-Quadrat) zu erklären, die ziemlich gut zu sein scheint. Was mich …

8 r regression multiple-regression

1

Konfidenzintervalle bei Verwendung des Bayes-Theorems

Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

Zeitreihen mit mehreren Themen und mehreren Variablen

Ich bin ein Webentwickler und ein unerfahrener Statistiker. Meine Daten sehen ungefähr so aus Subject Week x1 x2 x3 x4 x5 y1 A 1 .5 .6 .7 .8 .7 10 B 1 .3 .6 .2 .1 .3 8 C 1 .3 .1 .2 .3 .2 6 A 2 .1 .9 …

8 r regression time-series multiple-regression python

3

Interpretation des Koeffizienten in einem linearen Regressionsmodell mit kategorialen Variablen

Ich werde meine Beispiele mit R-Aufrufen geben. Zunächst ein einfaches Beispiel einer linearen Regression mit einer abhängigen Variablen 'Lebensdauer' und zwei kontinuierlichen erklärenden Variablen. data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 …

8 r multiple-regression interpretation regression-coefficients

4

Was muss ich beachten, wenn ich multiple Regression verwende, um „kausale“ Zusammenhänge in meinen Daten zu finden?

Zunächst stelle ich fest, dass multiple Regression nicht wirklich "kausale" Rückschlüsse auf die Daten liefert. Lassen Sie mich meinen aktuellen Fall erklären: Ich habe vier unabhängige Variablen, von denen ich hoffe (aber nicht sicher bin), dass sie das messen, was ich messe. Ich wollte die multiple Regression verwenden, um zu …

8 multivariate-analysis multiple-regression

1

Interpretation von Betareg Coef

Ich habe Daten, bei denen das Ergebnis der Anteil einer Art ist, der in einem Gebiet von einer Maschine an zwei verschiedenen Tagen beobachtet wurde. Da das Ergebnis ein Anteil ist und nicht 0 oder 1 enthält, habe ich eine Beta-Regression verwendet, um das Modell anzupassen. Die Temperatur wird als …

8 regression logistic multiple-regression beta-regression

Als «multiple-regression» getaggte Fragen