Statistiken und Big Data panel-data

4

Regressionsentwicklungsländer: BIP-Wachstum oder BIP

Für meine Masterarbeit möchte ich grundsätzlich herausfinden, warum Entwicklungsländer stagnieren. Neben theoretischen Aspekten möchte ich auch eine Regression vornehmen. Ich möchte das BIP oder das BIP-Wachstum als abhängige Variable von vielen unabhängigen Variablen wie der Amtszeit des Staatsoberhauptes, der Lebenserwartung, der Einschränkung der Arbeitszeit, der Alphabetisierung von Erwachsenen und dem …

8 regression econometrics panel-data macroeconomics

3

Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung

Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Wie verwende ich den Hausman-Test zur Diskriminierung aufgrund des Geschlechts?

Ich versuche, das geschlechtsspezifische Lohngefälle für männliche und weibliche Büroangestellte in einem großen schwedischen Unternehmen abzuschätzen, um zu testen, ob es eine Diskriminierung aufgrund des Geschlechts gibt. Der Hausman-Test lehnt die Null ab, dass die einzelnen festen Effekte zufällig sind, und daher kann ich mich nicht auf gepoolte OLS oder …

8 econometrics panel-data random-effects-model fixed-effects-model hausman

2

Propensity Score Matching mit zeitlich variierender Behandlung

Das grundlegende Verfahren zur Anpassung der Neigungsbewertung arbeitet mit Querschnittsdaten (dh zu einem bestimmten Zeitpunkt gesammelt). Der beliebte Befehl psmatch2 verwendet eine Dummy-Variable, die angibt, dass eine Beobachtung entweder zur Behandlungs- oder zur Kontrollgruppe gehört. In meinem Datensatz variiert diese Indikatorfunktion jedoch zeitlich. Die Daten sehen wie folgt aus: Ich …

8 stata panel-data propensity-scores

1

Unterschied in Unterschieden mit festen Effekten

Ich habe zwei Fragen zu festen Effekten im DD-Modell. Ich habe eine Behandlung, die zu unterschiedlichen Zeiten stattfindet (z. B. 2001, 2005 usw.). Ich möchte ein DD-Modell anpassen, daher standardisiere ich die Behandlungsjahre bis zum Jahr "0" als Behandlungszeit. Um die Heterogenität des Behandlungsjahres zu kontrollieren, habe ich die Fixeffekte …

8 econometrics panel-data fixed-effects-model difference-in-difference

1

Spezifikation der Paneldaten

Ich versuche, die beste Spezifikation für meinen Datensatz herauszufinden. Ich versuche, die Wirksamkeit der Sonderwirtschaftszonen in Polen im Sinne des Wirtschaftswachstums in drei ähnlichen Paneldatenmodellen für erläuterte Variablen zu untersuchen: a) registrierte Arbeitslosenquote b) BIP pro Kopf c) Bruttoanlageinvestitionen pro Kopf . Die Daten beziehen sich auf NUTS3-Unterregionen. Die erklärenden …

8 stata econometrics panel-data fixed-effects-model

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Visualisierung von Längsschnittdaten mit binärem Ergebnis

Für Längsschnittdaten mit einem numerischen Ergebnis kann ich Spaghetti-Diagramme verwenden, um die Daten zu visualisieren. Zum Beispiel so etwas (entnommen aus der UCLA Stats-Site): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance, n=10) interaction.plot(tolerance$time, tolerance$id, tolerance$tolerance, xlab="time", ylab="Tolerance", legend=F) Aber was ist, wenn mein Ergebnis binär 0 oder 1 ist? Zum Beispiel zeigt in den …

8 data-visualization repeated-measures binary-data panel-data

3

Unit-Root-Tests für Paneldaten in R.

Ich habe das plmPaket und möchte Unit-Root-Tests für einige Variablen ausführen. Ich erhalte folgende Fehlermeldung: > purtest(data$tot.emp) Error in data.frame(baldwin = c(59870, 61259, 60397, 58919, 57856, 57227, : arguments imply differing number of rows: 14, 19, 11, 12, 1, 20, 18, 10, 13 Ich gehe davon aus, dass ich diesen …

8 r panel-data unit-root

1

Korrigieren von Standardfehlern, wenn die unabhängigen Variablen automatisch korreliert werden

Ich habe eine Frage zur Korrektur von Standardfehlern, wenn die unabhängige Variable korreliert. In einer einfachen Zeitreiheneinstellung können wir die Newey-West-Kovarianzmatrix mit einer Reihe von Verzögerungen verwenden, um das Problem der Korrelation in den Residuen zu lösen. Was macht man in einer Panel-Dateneinstellung? Stellen Sie sich die Situation vor, in …

8 clustering standard-error panel-data

3

Längsmodelle in R und WINBUGS oder JAGS

Ich habe versucht, R für einige Längsmodelle zu verwenden, hauptsächlich über lmerund nlmePakete. Es scheint jedoch, dass viele Standardmodelle fehlen, wie beispielsweise Antedependenzmodelle oder faktoranalytische Modelle für Kovarianzmatrizen. Diese Modelle sind in SAS leicht verfügbar. Würde jemand andere Pakete für den Job in R empfehlen? Es ist mir eigentlich egal, …

8 r jags panel-data

1

Können Steigungen in linearen Regressionen als unabhängige oder abhängige Variablen in anderen Regressionsmodellen verwendet werden?

Ich habe 100 Patienten und jeder Patient hat 10 longitudinale Serumkreatininmessungen. Die geschätzten glomerulären Filtrationsraten (eGFR) wurden aus einer MDRD-Formel berechnet, die Geschlecht, Alter und Serumkreatinin umfasste. eGFR ist die abhängige Variable und die Zeit ist die unabhängige Variable in der linearen Regression für jeden Patienten. Verstoßen lineare Regressionen gegen …

8 regression mixed-model repeated-measures panel-data

2

Zufälliger Wald mit Längsschnittdaten

Ich habe viele Messungen für mehrere Personen, bin mir aber nicht sicher, wie ich diese Wiederholungsmessstruktur beim Ausführen eines zufälligen Waldmodells berücksichtigen soll. Gibt es eine Möglichkeit, die zugrunde liegende Datenstruktur von Längsschnittdaten mithilfe eines zufälligen Waldmodells zu berücksichtigen? Ist das überhaupt nötig? - es scheint mir, dass es sein …

7 r repeated-measures random-forest panel-data

3

Unterschied zwischen Dummies mit festen Effekten und Schätzer für feste Effekte?

Ich begann über Panel-Regressionsmodelle zu lesen. Ich bin jedoch etwas verwirrt über die unterschiedlichen Modellspezifikationen im Modell mit festen Effekten: Bedeutet eine Regression des Panels mit festen Effekten immer, dass ich Dummy-Variablen für die Querschnitte einführe (z. B. für jedes Land in meiner Stichprobe) und dann z. B. eine OLS-Schätzung …

7 least-squares panel-data fixed-effects-model

Als «panel-data» getaggte Fragen