Statistiken und Big Data regression

4

Ich habe ein binäres logistisches Regressionsmodell mit einem McFadden-Pseudo-R-Quadrat von 0,192 mit einer abhängigen Variablen namens Zahlung (1 = Zahlung und 0 = keine Zahlung). Wie ist die Interpretation dieses Pseudo-R-Quadrats? Handelt es sich um einen relativen Vergleich für verschachtelte Modelle (z. B. hat ein 6-Variablen-Modell ein McFadden-Pseudo-R-Quadrat von 0,192, …

29 regression self-study logistic

4

Wie kann man die Ergebnisse von lm () in eine Gleichung übersetzen?

Wir können lm()einen Wert vorhersagen, benötigen aber in einigen Fällen noch die Gleichung der Ergebnisformel. Fügen Sie beispielsweise die Gleichung zu Diagrammen hinzu.

29 r regression lm

3

Polynom-Regression mit Scikit-Learn

Ich versuche, Scikit-Learn für die Polynom-Regression zu verwenden. Nach meinem Verständnis ist die polynomielle Regression ein Sonderfall der linearen Regression. Ich habe gehofft, dass vielleicht eines der generalisierten linearen Modelle von scikit für Polynome höherer Ordnung parametrisiert werden kann, aber ich sehe keine Möglichkeit, dies zu tun. Ich habe es …

29 regression machine-learning large-data polynomial scikit-learn

4

Wie interpretieren Sie RMSLE (Root Mean Squared Logarithmic Error)?

Ich habe einen maschinellen Lernwettbewerb durchgeführt, bei dem RMSLE (Root Mean Squared Logarithmic Error) verwendet wird, um die Leistung zu bewerten und den Verkaufspreis einer Gerätekategorie vorherzusagen. Das Problem ist, dass ich nicht sicher bin, wie ich den Erfolg meines Endergebnisses interpretieren soll. Wenn ich zum Beispiel einen Effektivwert von …

29 regression machine-learning interpretation measurement-error theory

3

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Wie wird die Kostenfunktion aus der logistischen Regression abgeleitet?

Ich mache den Stanford-Kurs für maschinelles Lernen auf Coursera. Im Kapitel zur logistischen Regression lautet die Kostenfunktion wie folgt: Dann wird es hier abgeleitet: Ich habe versucht, die Ableitung der Kostenfunktion zu erhalten, aber etwas völlig anderes. Wie wird das Derivat erhalten? Was sind die Zwischenschritte?

29 regression logistic gradient-descent derivative

1

Wie falsch ist ein Regressionsmodell, wenn die Annahmen nicht erfüllt sind?

Was passiert beim Anpassen eines Regressionsmodells, wenn die Annahmen der Ausgaben nicht erfüllt werden? Was passiert, wenn die Residuen nicht homoskedastisch sind? Wenn die Residuen ein zunehmendes oder abnehmendes Muster im Diagramm Residuen vs. Was passiert, wenn die Residuen nicht normal verteilt sind und den Shapiro-Wilk-Test nicht bestehen? Der Shapiro-Wilk-Test …

28 regression multiple-regression error assumptions normality-assumption

1

Warum ist meine Ableitung einer Lasso-Lösung in geschlossener Form falsch?

Das Lasso-Problem hat die geschlossene Form Lösung: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + wenn X orthonormale Spalten hat. Dies wurde in diesem Thread gezeigt: …

28 regression lasso regularization

4

Pseudo-R-Quadrat-Formel für GLMs

Eine Formel für Pseudo fand ich in dem Buch Extending the Linear Model with R., Julian J. Faraway (S. 59).R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Ist dies eine gebräuchliche Formel für Pseudo für GLMs?R2R2R^2

28 r regression generalized-linear-model r-squared

5

Welche Gefahren birgt die Verletzung der Homoskedastizitätsannahme für die lineare Regression?

Betrachten Sie als Beispiel den ChickWeightDatensatz in R. Die Varianz wächst offensichtlich mit der Zeit. Wenn ich also eine einfache lineare Regression verwende, wie: m <- lm(weight ~ Time*Diet, data=ChickWeight) Meine Fragen: Welche Aspekte des Modells werden fraglich sein? Beschränken sich die Probleme darauf, außerhalb des TimeBereichs zu extrapolieren ? …

28 r regression heteroscedasticity assumptions

5

Auswahl des besten Modells unter verschiedenen „besten“ Modellen

Wie wählt man ein Modell aus verschiedenen Modellen aus, die nach verschiedenen Methoden ausgewählt wurden (z. B. Rückwärts- oder Vorwärtsauswahl)? Was ist auch ein sparsames Modell?

28 regression model-selection

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

6

Warum brauchen wir multivariate Regression (im Gegensatz zu einer Reihe von univariaten Regressionen)?

Ich habe gerade dieses wunderbare Buch durchgesehen: Angewandte multivariate statistische Analyse von Johnson und Wichern . Die Ironie ist, dass ich die Motivation für die Verwendung multivariater (Regressions-) Modelle anstelle separater univariater (Regressions-) Modelle immer noch nicht verstehen kann. Ich habe die stats.statexchange-Posts 1 und 2 durchgesehen , die (a) …

28 regression multiple-regression inference multivariate-regression

3

Warum können zentrierende unabhängige Variablen die Haupteffekte mit Mäßigung verändern?

Ich habe eine Frage zu multipler Regression und Interaktion, die von diesem CV-Thread inspiriert wurde: Interaktionsbegriff unter Verwendung von hierarchischen Regressionsanalysen mit zentrierten Variablen? Welche Variablen sollten wir zentrieren? Bei der Überprüfung auf einen Moderationseffekt zentriere ich meine unabhängigen Variablen und multipliziere die zentrierten Variablen, um meinen Interaktionsterm zu berechnen. …

28 regression interaction centering

2

Warum wird RSS Chi-Quadrat-mal np verteilt?

Ich möchte , verstehen , warum unter dem OLS - Modell, die RSS (Restsumme der Quadrate) verteilt wird ( die Anzahl der Parameter in dem Modell ist, die Anzahl der Beobachtungen).χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn Ich entschuldige mich dafür, dass ich eine so grundlegende Frage gestellt habe, aber ich kann die Antwort anscheinend …

28 regression distributions least-squares

Als «regression» getaggte Fragen