Statistiken und Big Data regression

1

Regression in der Einstellung : Wie wird die Regularisierungsmethode gewählt (Lasso, PLS, PCR, Ridge)?

Ich versuche herauszufinden , ob Ridge Regression , LASSO , Principal Component Regression (PCR) oder Partial Least Squares (PLS) in einer Situation mit einer großen Anzahl von Variablen / Merkmalen ( ) und einer geringeren Anzahl von Stichproben ( ), und mein Ziel ist die Vorhersage.pppn<pn<pn n , meistens ;p>10np>10np>10n …

15 regression pca lasso ridge-regression partial-least-squares

3

Vorhersage der Varianz heteroskedastischer Daten

Ich versuche, eine Regression auf heteroskedastischen Daten durchzuführen, wobei ich versuche , die Fehlervarianzen sowie die Mittelwerte in Form eines linearen Modells vorherzusagen . Etwas wie das: y( x , t )ξ( x , t )y¯( x , t )σ( x , t )= y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim …

15 regression spss variance residuals heteroscedasticity

4

Zu vermeidende Fallstricke bei der Transformation von Daten?

Nachdem ich die Antwort doppelt transformiert hatte, erreichte ich eine starke lineare Beziehung zwischen meiner XXX und YY.Y Variablen. Das Modell war Y∼XY.∼XY\sim X aber ich habe es in verbessertR2von 0,19 auf 0,76.YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X}R2R2R^2 Offensichtlich habe ich mich in dieser Beziehung anständig operieren lassen. Kann jemand die Fallstricke diskutieren, die …

15 regression data-transformation r-squared

1

Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?

Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

4

Wie führe ich eine Regression für nicht normale Daten durch, die bei der Transformation nicht normal bleiben?

Ich habe einige Daten (158 Fälle), die aus einer Likert-Skala für 21 Fragebogenelemente abgeleitet wurden. Ich möchte / muss wirklich eine Regressionsanalyse durchführen, um zu sehen, welche Punkte auf dem Fragebogen die Antwort auf einen Gesamtpunkt vorhersagen (Zufriedenheit). Die Antworten sind nicht normalverteilt (laut KS-Tests) und ich habe sie in …

15 regression distributions nonparametric

4

Was ist das beste Buch über verallgemeinerte lineare Modelle für Anfänger?

Ich bin noch ziemlich neu in verallgemeinerten linearen Modellen, und ich habe Probleme mit der Notation in den meisten GLM-Texten, die ich aufgegriffen habe. Gibt es äußerst beliebte GLM-Bücher, die sich besser lesen lassen?

15 regression generalized-linear-model references

1

Wie werden die Koeffizienten einer Beta-Regression interpretiert?

Ich habe einige Daten, die zwischen 0 und 1 begrenzt sind. Ich habe das betaregPaket in R verwendet, um ein Regressionsmodell mit den begrenzten Daten als abhängige Variable anzupassen. Meine Frage ist: Wie interpretiere ich die Koeffizienten aus der Regression?

15 r regression interpretation beta-distribution regression-coefficients

2

Genaue Bedeutung und Vergleich zwischen Einflusspunkt, High Leverage Point und Ausreißer?

Aus Wikipedia Einflussreiche Beobachtungen sind Beobachtungen, die einen relativ großen Einfluss auf die Vorhersagen des Regressionsmodells haben. Aus Wikipedia Hebelpunkte sind die Beobachtungen, falls vorhanden, die bei extremen oder abweichenden Werten der unabhängigen Variablen gemacht wurden, so dass das angepasste Regressionsmodell aufgrund des Fehlens benachbarter Beobachtungen dieser bestimmten Beobachtung nahe …

15 regression outliers leverage

4

Gibt es eine „unbeaufsichtigte Regression“?

Wenn ich richtig liege, ist "unbeaufsichtigte Klassifizierung" dasselbe wie Clustering. Gibt es dann eine "unbeaufsichtigte Regression"? Vielen Dank!

15 regression unsupervised-learning

1

Wie berechnet ggplot Konfidenzintervalle für Regressionen?

Das R-Plot-Paket ggplot2 verfügt über eine großartige Funktion namens stat_smooth zum Plotten einer Regressionslinie (oder -kurve ) mit dem zugehörigen Konfidenzband. Es fällt mir jedoch schwer, genau herauszufinden, wie dieses Konfidenzband für jede Zeit der Regressionsgeraden (oder "Methode") erzeugt wird. Wie finde ich diese Informationen?

15 r regression confidence-interval ggplot2

7

Zufälliger Wald ist überpassend

Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den Test. Dies ist …

15 regression random-forest scikit-learn

1

Fehler-in-Variablen-Regression: Ist es gültig, Daten von drei Standorten zu bündeln?

Ich wurde kürzlich von einem Kunden zu einer Bootstrap-Analyse eingeladen, da ein FDA-Gutachter sagte, dass die Regression der Fehler in Variablen ungültig sei, da beim Poolen von Daten von Sites die Analyse das Poolen von Daten von drei Sites beinhaltete, an denen zwei Sites einige Proben enthielten das Gleiche. HINTERGRUND …

15 regression errors-in-variables deming-regression pooling

3

Automatisiertes Verfahren zur Auswahl einer Teilmenge von Datenpunkten mit der stärksten Korrelation?

Gibt es ein Standardverfahren (so dass man es als Referenz anführen könnte), um die Teilmenge der Datenpunkte aus einem größeren Pool mit der stärksten Korrelation (entlang nur zwei Dimensionen) auszuwählen? Angenommen, Sie haben 100 Datenpunkte. Sie möchten eine Teilmenge von 40 Punkten mit der größtmöglichen Korrelation entlang der X- und …

15 regression correlation autocorrelation

2

Wie kann man zwischen den verschiedenen angepassten Formeln wählen ?

Ich denke an die angepassten R-Quadrat-Formeln, die vorgeschlagen werden von: Ezekiel (1930), von dem ich glaube, dass er derzeit in SPSS verwendet wird. R2a d j u s t e d= 1 -( N- 1 )( N- p - 1 )( 1 - R2)Reindjusted2=1-(N-1)(N-p-1)(1-R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) …

15 regression r-squared

2

Wie wählt man ein Signifikanzniveau für einen großen Datensatz?

Ich arbeite mit einem Datensatz mit N rund 200.000. In Regressionen sehe ich sehr kleine Signifikanzwerte << 0.001, die mit sehr kleinen Effektgrößen verbunden sind, z. B. r = 0.028. Was ich gerne wissen würde, gibt es eine grundsätzliche Möglichkeit, eine angemessene Signifikanzschwelle in Bezug auf die Stichprobengröße zu bestimmen? …

15 regression probability statistical-significance sample-size

Als «regression» getaggte Fragen