Statistiken und Big Data computational-statistics

21

Hat Julia Hoffnung, in der statistischen Community zu bleiben?

Ich habe kürzlich einen Beitrag von R-Bloggern gelesen, der mit diesem Blogbeitrag von John Myles White über eine neue Sprache namens Julia verlinkt ist . Julia nutzt einen Just-in-Time-Compiler, der unglaublich schnelle Laufzeiten liefert und die gleiche Größenordnung der Geschwindigkeit wie C / C ++ aufweist (die gleiche Reihenfolge , …

161 r computational-statistics software computing julia

9

Welchen Algorithmus sollte ich verwenden, um Anomalien in Zeitreihen zu erkennen?

Hintergrund Ich arbeite im Network Operations Center. Wir überwachen Computersysteme und deren Leistung. Eine der wichtigsten zu überwachenden Messgrößen ist die Anzahl der Besucher / Kunden, die derzeit mit unseren Servern verbunden sind. Um dies sichtbar zu machen, sammeln wir (Ops-Team) Metriken wie Zeitreihendaten und zeichnen Diagramme. Graphite ermöglicht es …

70 machine-learning time-series python computational-statistics anomaly-detection

8

Excel als Statistik-Workbench

Es scheint, dass viele Leute (einschließlich mir) gerne explorative Datenanalysen in Excel durchführen. Einige Einschränkungen, wie z. B. die Anzahl der Zeilen, die in einer Tabelle zulässig sind, sind problematisch, machen es jedoch in den meisten Fällen nicht unmöglich, Excel zum Herumspielen von Daten zu verwenden. Ein Artikel von McCullough …

52 software computational-statistics excel

6

Welcher Algorithmus wird bei der linearen Regression verwendet?

Normalerweise höre ich von "gewöhnlichen kleinsten Quadraten". Ist das der am häufigsten verwendete Algorithmus für die lineare Regression? Gibt es Gründe, einen anderen zu verwenden?

42 regression least-squares algorithms computational-statistics numerics

7

Statistikkonzept, um zu erklären, warum es weniger wahrscheinlich ist, dass Sie die gleiche Anzahl von Köpfen und Schwänzen umdrehen, wenn die Anzahl der Umdrehungen zunimmt?

Ich arbeite daran, Wahrscheinlichkeit und Statistik zu lernen, indem ich ein paar Bücher lese und Code schreibe, und während ich Münzwürfe simuliere, bemerke ich etwas, das meiner naiven Intuition leicht widerspricht. Wenn Sie mal eine faire Münze werfen, konvergiert das Verhältnis von Kopf zu Zahl gegen 1, wenn zunimmt, genau …

28 probability computational-statistics

12

Befehlszeilentool zum Berechnen grundlegender Statistiken für Werteströme [geschlossen]

Gibt es ein Befehlszeilentool, das den Zahlenfluss (im ASCII-Format) von der Standardeingabe akzeptiert und die grundlegenden deskriptiven Statistiken für diesen Fluss liefert, z. B. Min, Max, Durchschnitt, Median, RMS, Quantile usw.? Die Ausgabe kann mit dem nächsten Befehl in der Befehlszeilenkette analysiert werden. Die Arbeitsumgebung ist Linux, aber andere Optionen …

27 descriptive-statistics computational-statistics computing

4

Was sind die korrekten Werte für Präzision und Rückruf in Randfällen?

Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen statistischen Test durch, …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Wie passt man eine diskrete Verteilung an, um Daten zu zählen?

Ich habe das folgende Histogramm der Zähldaten. Und ich würde gerne eine diskrete Verteilung hinzufügen. Ich bin mir nicht sicher, wie ich das anstellen soll. Soll ich dem Histogramm zuerst eine diskrete Verteilung überlagern, z. B. eine negative Binomialverteilung, damit ich die Parameter der diskreten Verteilung erhalte, und dann einen …

17 r poisson-distribution discrete-data computational-statistics negative-binomial

2

Was sind einige wichtige Verwendungen der Zufallszahlengenerierung in der Rechenstatistik?

Wie und warum sind Zufallszahlengeneratoren (Random Number Generators, RNGs) in der Rechenstatistik wichtig? Ich verstehe, dass die Zufälligkeit bei der Auswahl von Stichproben für viele statistische Tests wichtig ist, um Verzerrungen in Bezug auf beide Hypothesen zu vermeiden. Gibt es jedoch andere Bereiche der Rechenstatistik, in denen Zufallszahlengeneratoren wichtig sind?

15 hypothesis-testing monte-carlo algorithms random-generation computational-statistics

1

Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?

Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

15 machine-learning optimization gradient-descent computational-statistics sgd

2

Wie unterscheiden sich ABC und MCMC in ihren Anwendungen?

Nach meinem Verständnis verfolgen Approximate Bayesian Computation (ABC) und Markov Chain Monte Carlo (MCMC) sehr ähnliche Ziele. Im Folgenden beschreibe ich mein Verständnis dieser Methoden und wie ich die Unterschiede in ihrer Anwendung auf reale Daten wahrnehme. Ungefähre Bayes'sche Berechnung ABC besteht darin, einen Parameter aus einer vorherigen, durch numerische …

15 bayesian mcmc computational-statistics

3

Verwenden einige von Ihnen Google Text & Tabellen, um Ihre statistischen Arbeiten durchzuführen und mit anderen zu teilen?

Ich weiß, dass die meisten von Ihnen wahrscheinlich der Meinung sind, dass Google Docs immer noch ein primitives Tool ist. Es ist kein Matlab oder R und nicht einmal Excel. Ich bin jedoch verblüfft über die Leistungsfähigkeit dieser webbasierten Software, die nur die Bedienungsmöglichkeiten eines Browsers nutzt (und mit vielen …

15 software computational-statistics

9

Welche Bücher bieten einen Überblick über Computerstatistiken in Bezug auf die Informatik?

Als Softwareentwickler interessiere ich mich für Themen wie statistische Algorithmen, Data Mining, maschinelles Lernen, Bayes'sche Netze, Klassifizierungsalgorithmen, neuronale Netze, Markov-Ketten, Monte-Carlo-Methoden und die Erzeugung von Zufallszahlen. Ich persönlich hatte nicht das Vergnügen, an einer dieser Techniken selbst zu arbeiten, aber ich musste mit Software arbeiten, die sie unter der Haube …

15 references computational-statistics computing

4

Effizientes Aktualisieren der linearen Regression beim Hinzufügen von Beobachtungen und / oder Prädiktoren in R

Ich würde gerne Wege in R finden, um ein lineares Modell effizient zu aktualisieren, wenn eine Beobachtung oder ein Prädiktor hinzugefügt wird. biglm kann beim Hinzufügen von Beobachtungen aktualisiert werden, aber meine Daten sind klein genug, um sich im Speicher zu befinden (obwohl ich eine große Anzahl von zu aktualisierenden …

15 r regression computational-statistics linear-model

1

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

Als «computational-statistics» getaggte Fragen