Statistiken und Big Data algorithms

7

Finden Sie enge Paare in einem sehr hochdimensionalen Raum mit spärlichen Vektoren

Ich habe (~ eine Million) Merkmalsvektoren. Es gibt (~ eine Million) binäre Merkmale, aber in jedem Vektor wären nur (~ tausend) von ihnen , der Rest ist . Ich suche nach Vektorpaaren, die mindestens (~ hundert) Merkmale gemeinsam haben ( in beiden). Die Anzahl solcher Paare ist ähnlich groß wie …

9 algorithms high-dimensional

4

So probieren Sie, wenn Sie die Verteilung nicht kennen

Ich bin ziemlich neu in der Statistik (eine Handvoll Uni-Kurse für Anfänger) und habe mich über Stichproben aus unbekannten Distributionen gewundert. Wenn Sie keine Ahnung von der zugrunde liegenden Verteilung haben, gibt es eine Möglichkeit, zu "garantieren", dass Sie eine repräsentative Stichprobe erhalten? Beispiel zur Veranschaulichung: Angenommen, Sie versuchen, die …

9 distributions estimation sampling sample-size algorithms

3

Apriori-Algorithmus im Klartext?

Ich habe einen Wiki-Artikel über Apriori gelesen. Ich habe Probleme beim Verstehen des Pflaumen- und Join-Schritts. Kann mir jemand erklären, wie der Apriori-Algorithmus in einfachen Worten funktioniert (so dass Anfänger wie ich ihn leicht verstehen können)? Es ist gut, wenn jemand den damit verbundenen schrittweisen Prozess erklärt.

9 data-mining algorithms frequentist

3

Radfahren im k-means-Algorithmus

Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.

9 clustering algorithms k-means

3

Platzsparendes Clustering

Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …

9 clustering algorithms large-data

2

Erzwingen einer Reihe von Zahlen zu einer Gaußschen Glockenkurve

( Dies bezieht sich auf meine Programmierfrage zum Stapelüberlauf : Glockenkurven-Gauß-Algorithmus (Python und / oder C #) .) Auf Answers.com habe ich dieses einfache Beispiel gefunden: Finden Sie das arithmetische Mittel (Durchschnitt) => Summe aller Werte in der Menge, geteilt durch die Anzahl der Elemente in der Menge Finden Sie …

9 algorithms normal-distribution

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Unterschied zwischen simuliertem Tempern und mehrfachem Gier

Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …

8 machine-learning optimization algorithms

2

Konvergenzbedingungen für Richtlinien- und Wertiterationsalgorithmen

Richtlinien- und Wertiterationsalgorithmen können verwendet werden, um Markov-Entscheidungsprozessprobleme zu lösen. Es fällt mir schwer, die notwendigen Bedingungen für die Konvergenz zu verstehen. Wenn sich die optimale Richtlinie in zwei Schritten (dh während der Iterationen i und i + 1 ) nicht ändert , kann daraus geschlossen werden, dass die Algorithmen …

8 algorithms markov-process convergence

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Eine einfachere Methode zur Berechnung des exponentiell gewichteten gleitenden Durchschnitts?

Vorgeschlagene Methode: Bei einer Zeitreihe möchte ich einen gewichteten gleitenden Durchschnitt mit einem Mittelungsfenster von Punkten berechnen , wobei die Gewichtungen neuere Werte gegenüber älteren Werten bevorzugen. N.xichxix_iN.NN Bei der Auswahl der Gewichte verwende ich die bekannte Tatsache, dass eine geometrische Reihe gegen 1 konvergiert, dh , vorausgesetzt, es werden …

8 time-series forecasting algorithms weighted-mean

2

Literatur zum Algorithmus zur optimalen Aufteilung beim Wachstum von Klassifikationsbäumen

In ESL , Abschnitt 9.7, gibt es einen Absatz, der besagt, dass die Berechnungszeit einer Aufteilung beim Wachstum eines Klassifizierungs- (oder Regressions-) Baums typischerweise wie skaliert, wobei die Anzahl der Prädiktoren und die Anzahl von ist Proben.p N.pNlogNpNlog⁡Np N \log NpppNNN Ein naiver Ansatz führt zu einer Skalierung, und ich …

8 algorithms cart

4

FA: Auswahl der Rotationsmatrix basierend auf „Einfachen Strukturkriterien“

Eines der wichtigsten Probleme bei der Verwendung der Faktoranalyse ist ihre Interpretation. Die Faktoranalyse verwendet häufig eine Faktorrotation, um ihre Interpretation zu verbessern. Nach einer zufriedenstellenden Drehung hat die gedrehte Faktorladematrix L ' die gleiche Fähigkeit, die Korrelationsmatrix darzustellen, und sie kann anstelle der nicht gedrehten Matrix L als Faktorladematrix …

8 r algorithms factor-analysis psychometrics matlab

3

Interpolieren von gruppierten Daten, sodass der Bin-Durchschnitt erhalten bleibt

Angenommen, ich habe diese gruppierten Daten als Eingabe. Der Durchschnittswert wird für jedes aufeinanderfolgende Intervall angegeben. Nehmen wir zur Vereinfachung an, dass die Abtastdichte in jedem Bin einheitlich ist.y¯ichy¯i\bar{y}_iΔxichΔxi\Delta x_i Jetzt möchte ich die zugrunde liegende Funktion ( ) schätzen, dh ich möchte in der Lage sein, vernünftige Schätzungen von …

8 algorithms interpolation binning

Als «algorithms» getaggte Fragen