Statistiken und Big Data

5

Praktische Hyperparameteroptimierung: Zufällige vs. Gittersuche

Ich gehe gerade die Zufallssuche von Bengio und Bergsta für die Hyperparameter -Optimierung [1] durch, bei der die Autoren behaupten, die Zufallssuche sei effizienter als die Rastersuche, um ungefähr die gleiche Leistung zu erzielen. Meine Frage ist: Stimmen die Leute hier dieser Behauptung zu? In meiner Arbeit habe ich die …

40 machine-learning hyperparameter optimization

6

Wann werden Simulationen verwendet?

Das ist also eine sehr einfache und dumme Frage. Als ich in der Schule war, widmete ich dem gesamten Konzept der Simulationen im Unterricht jedoch nur sehr wenig Aufmerksamkeit, und das hat mich ein wenig verängstigt. Können Sie den Simulationsprozess mit Laien erklären? (Kann zur Generierung von Daten, Regressionskoeffizienten usw. …

40 simulation

5

Warnung in R - Chi-Quadrat-Näherung ist möglicherweise falsch

Ich habe Daten, die die Ergebnisse der Feuerwehr-Aufnahmeprüfungen zeigen. Ich teste die Hypothese, dass Prüfungsergebnisse und ethnische Zugehörigkeit nicht voneinander unabhängig sind. Um dies zu testen, führte ich einen Pearson-Chi-Quadrat-Test in R durch. Die Ergebnisse zeigen, was ich erwartet hatte, aber es wurde die Warnung " In chisq.test(a) : Chi-squared …

40 r categorical-data chi-squared small-sample error-message

4

Rückruf und Präzision in der Klassifizierung

Ich habe einige Definitionen von Rückruf und Genauigkeit gelesen, obwohl dies jedes Mal im Zusammenhang mit dem Abrufen von Informationen geschieht. Ich habe mich gefragt, ob jemand dies in einem Klassifizierungskontext etwas genauer erklären und vielleicht einige Beispiele veranschaulichen könnte. Angenommen, ich habe einen binären Klassifikator, der eine Genauigkeit von …

40 machine-learning metric

5

Wie kann die Gratregressionslösung abgeleitet werden?

Ich habe einige Probleme mit der Herleitung der Lösung für die Gratregression. Ich kenne die Regressionslösung ohne den Regularisierungsbegriff: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

3

Wie kann man die Ergebnisse eines Lassos mit glmnet darstellen?

Ich würde gerne Prädiktoren für eine stetige abhängige Variable aus einer Menge von 30 unabhängigen Variablen finden. Ich verwende die Lasso-Regression, wie sie im glmnet- Paket in R implementiert ist. Hier ist ein Dummy-Code: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) …

40 r multiple-regression lasso glmnet communication

3

Betrachten Sie die Summe von

Ich habe mich eine Weile darüber gewundert. Ich finde es ein bisschen komisch, wie plötzlich es passiert. Warum brauchen wir eigentlich nur drei Uniformen, damit ZnZnZ_n so glatt wird? Und warum geschieht das Glätten so relativ schnell? Z2Z2Z_2 : Z3Z3Z_3 : (Bilder, die schamlos aus John D. Cooks Blog gestohlen …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

2

Wie lese ich Cooks Entfernungsdiagramme?

Weiß jemand, wie man herausfindet, ob die Punkte 7, 16 und 29 Einflusspunkte sind oder nicht? Ich habe irgendwo gelesen, dass Cooks Entfernung kleiner als 1 ist, sie aber nicht. Habe ich recht?

40 r regression residuals diagnostic cooks-distance

3

Was sind die Unterschiede zwischen Hidden-Markov-Modellen und neuronalen Netzen?

Ich mache mich in Statistiken nur nass, also tut es mir leid, wenn diese Frage keinen Sinn ergibt. Ich habe Markov-Modelle verwendet, um versteckte Zustände (unfaire Casinos, Würfelwürfe usw.) und neuronale Netze vorherzusagen und die Klicks der Benutzer auf eine Suchmaschine zu untersuchen. Beide hatten verborgene Zustände, die wir mithilfe …

40 data-mining algorithms neural-networks markov-process

1

Wie werden wichtige Hauptkomponenten mithilfe des Bootstrapping- oder Monte-Carlo-Ansatzes ermittelt?

Ich bin daran interessiert, die Anzahl signifikanter Muster zu bestimmen, die aus einer Hauptkomponentenanalyse (PCA) oder einer empirischen Orthogonalfunktionsanalyse (EOF) hervorgehen. Ich bin besonders daran interessiert, diese Methode auf Klimadaten anzuwenden. Das Datenfeld ist eine MxN-Matrix, wobei M die Zeitdimension (z. B. Tage) und N die räumliche Dimension (z. B. …

40 r pca bootstrap monte-carlo

15

Welche bewährten Methoden sollte ich bei der Erstellung von Plots befolgen?

Normalerweise treffe ich meine eigenen Entscheidungen, wenn ich Handlungen vorbereite. Ich frage mich jedoch, ob es Best Practices für die Erstellung von Plots gibt. Anmerkung: Robs Kommentar zu einer Antwort auf diese Frage ist hier sehr relevant.

40 data-visualization references

13

Das Monty Hall Problem - wo versagt unsere Intuition?

Aus Wikipedia: Angenommen, Sie sind in einer Spielshow und haben die Wahl zwischen drei Türen: Hinter einer Tür steht ein Auto; hinter den anderen Ziegen. Sie wählen eine Tür, sagen Sie Nr. 1, und der Gastgeber, der weiß, was sich hinter den Türen befindet, öffnet eine weitere Tür, sagen Sie …

40 probability intuition puzzle

4

Wie löst die geradlinige Aktivierungsfunktion das Problem des verschwindenden Gradienten in neuronalen Netzen?

Ich fand eine gleichgerichtete Lineareinheit (ReLU), die an mehreren Stellen als Lösung für das Problem des verschwindenden Gradienten für neuronale Netze gelobt wurde . Das heißt, man verwendet max (0, x) als Aktivierungsfunktion. Wenn die Aktivierung positiv ist, ist dies offensichtlich besser als beispielsweise die Sigma-Aktivierungsfunktion, da ihre Herleitung immer …

40 machine-learning neural-networks deep-learning gradient-descent

5

Dynamisches Time Warping Clustering

Was wäre der Ansatz, um mithilfe von Dynamic Time Warping (DTW) ein Clustering von Zeitreihen durchzuführen? Ich habe über DTW gelesen, um Ähnlichkeiten zwischen zwei Zeitreihen zu finden, während sie zeitlich verschoben werden könnten. Kann ich diese Methode als Ähnlichkeitsmaß für Clustering-Algorithmen wie k-means verwenden?

40 time-series clustering

3

Was sagt uns die Standardabweichung bei nicht normaler Verteilung?

In einer Normalverteilung hat die Regel 68-95-99.7 eine große Bedeutung für die Standardabweichung, aber was würde die Standardabweichung in einer nicht normalen Verteilung bedeuten (multimodal oder schief)? Würden alle Datenwerte noch innerhalb von 3 Standardabweichungen liegen? Haben wir Regeln wie die 68-95-99.7 für nicht normale Distributionen?

40 normal-distribution standard-deviation skewness