Statistiken und Big Data

4

Was sind die Unterschiede zwischen Sparse Coding und Autoencoder?

Sparse Coding ist definiert als Lernen eines überkompletten Satzes von Basisvektoren, um Eingangsvektoren darzustellen (<- warum wollen wir das?). Was sind die Unterschiede zwischen Sparse Coding und Autoencoder? Wann werden wir Sparse Coding und Autoencoder verwenden?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

1

Ermitteln von Ausreißern in Zeitreihen (LS / AO / TC) mithilfe des Pakets tsoutliers in R. Wie werden Ausreißer im Gleichungsformat dargestellt?

Kommentar: Zunächst möchte ich dem Autor des neuen tsoutliers- Pakets, das Chen und Lius Zeitreihen-Ausreißererkennung implementiert , ein großes Dankeschön aussprechen , das 1993 im Journal of the American Statistical Association in Open Source Software .RRR Das Paket erkennt 5 verschiedene Ausreißertypen iterativ in Zeitreihendaten: Additiver Ausreißer (AO) Innovationsausreißer (IO) …

35 time-series forecasting arima outliers

8

Zufälliges Gehen an den Rändern eines Würfels

Eine Ameise befindet sich in einer Ecke eines Würfels und kann sich nicht bewegen. Eine Spinne beginnt an der gegenüberliegenden Ecke und kann sich mit der gleichen Wahrscheinlichkeit entlang der Würfelkanten in jede Richtung bewegen . Wie viele Schritte braucht die Spinne im Durchschnitt, um zur Ameise zu gelangen?1 / …

35 probability random-walk

11

Mittlere absolute Abweichung vs. Standardabweichung

In dem Lehrbuch "New Comprehensive Mathematics for O Level" von Greer (1983) sehe ich eine gemittelte Abweichung, die wie folgt berechnet wird: Summieren Sie die absoluten Differenzen zwischen Einzelwerten und Mittelwert. Dann erhalten Sie den Durchschnitt. Im gesamten Kapitel wird der Begriff Mittelwertabweichung verwendet. Vor kurzem habe ich jedoch mehrere …

35 distributions standard-deviation frequency variability

1

Logistische Regression: Anova-Chi-Quadrat-Test vs. Signifikanz der Koeffizienten (anova () vs. summary () in R)

Ich habe ein logistisches GLM-Modell mit 8 Variablen. Ich habe einen Chi-Quadrat-Test in R durchgeführt, anova(glm.model,test='Chisq')und 2 der Variablen haben sich als vorhersagend erwiesen, wenn sie oben im Test bestellt wurden, und nicht so sehr, wenn sie unten bestellt wurden. Das summary(glm.model)deutet darauf hin, dass ihre Koeffizienten unbedeutend sind (hoher …

35 r regression logistic statistical-significance generalized-linear-model

3

Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist?

Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Für jede Menge von Vektoren Matrix = positiv semidefinit.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Eine Abbildung kann wie = …

35 svm kernel-trick

3

Signifikanzwiderspruch in der linearen Regression: signifikanter t-Test für einen Koeffizienten gegenüber nicht signifikanter Gesamt-F-Statistik

Ich passe ein Modell mit mehreren linearen Regressionen zwischen 4 kategorialen Variablen (mit jeweils 4 Ebenen) und einer numerischen Ausgabe an. Mein Datensatz enthält 43 Beobachtungen. Die Regression gibt mir die folgenden Werte aus dem Test für jeden Steigungskoeffizienten: . Somit ist der Koeffizient für den vierten Prädiktor bei einem …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

5

Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]

Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)? Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die …

35 machine-learning classification dataset large-data

4

Unterschied zwischen Längsdesign und Zeitreihen

Was ist / sind die Unterschiede zwischen einem Längsdesign und einer Zeitreihe?

35 time-series panel-data

3

Was ist ein Reststandardfehler?

Beim Ausführen eines Mehrfachregressionsmodells in R ist eine der Ausgaben ein Reststandardfehler von 0,0589 bei 95.161 Freiheitsgraden. Ich weiß, dass die 95.161 Freiheitsgrade durch die Differenz zwischen der Anzahl der Beobachtungen in meiner Stichprobe und der Anzahl der Variablen in meinem Modell gegeben sind. Was ist der Reststandardfehler?

35 regression standard-error residuals

4

Generische Summe von Gamma-Zufallsvariablen

Ich habe gelesen, dass die Summe der Gamma-Zufallsvariablen mit demselben Skalenparameter eine andere Gamma-Zufallsvariable ist. Ich habe auch gesehen, dass der Artikel von Moschopoulos eine Methode zur Summierung einer allgemeinen Menge von Gamma-Zufallsvariablen beschreibt. Ich habe versucht, die Methode von Moschopoulos zu implementieren , habe aber noch keinen Erfolg. Wie …

35 probability distributions gamma-distribution summations saddlepoint-approximation

4

Warum wird die logistische Regression instabil, wenn die Klassen gut voneinander getrennt sind?

Warum wird die logistische Regression instabil, wenn die Klassen gut voneinander getrennt sind? Was bedeuten gut getrennte Klassen? Ich würde mich sehr freuen, wenn sich jemand mit einem Beispiel erklären kann.

34 r regression logistic separation

5

Was ist, wenn meine linearen Regressionsdaten mehrere vermischte lineare Beziehungen enthalten?

Angenommen, ich untersuche, wie Narzissen auf verschiedene Bodenbedingungen reagieren. Ich habe Daten über den pH-Wert des Bodens im Vergleich zur reifen Höhe der Narzisse gesammelt. Da ich eine lineare Beziehung erwarte, gehe ich einer linearen Regression nach. Als ich mit meiner Studie begann, wusste ich jedoch nicht, dass die Population …

34 regression linear-model dataset

3

Was bedeutet das Akaike Information Criterion (AIC) eines Modells?

Ich habe hier einige Fragen darüber gesehen, was es in Laienbegriffen bedeutet, aber diese sind zu Laien für meinen Zweck hier. Ich versuche mathematisch zu verstehen, was der AIC-Score bedeutet. Gleichzeitig möchte ich keinen strengen Beweis, der mich die wichtigeren Punkte nicht erkennen lässt. Wenn dies zum Beispiel ein Kalkül …

34 self-study model-selection aic entropy information-theory

3

R - Verwirrt in der Restterminologie

Root Mean Square Error Restsumme der Quadrate Reststandardfehler mittlere quadratische Fehler Testfehler Ich dachte, ich hätte diese Begriffe verstanden, aber je mehr ich statistische Probleme habe, desto mehr bin ich verwirrt, wo ich mich selbst errate. Ich hätte gerne eine Bestätigung und ein konkretes Beispiel Ich kann die Gleichungen online …

34 r regression residuals