Ich gehe gerade die Zufallssuche von Bengio und Bergsta für die Hyperparameter -Optimierung [1] durch, bei der die Autoren behaupten, die Zufallssuche sei effizienter als die Rastersuche, um ungefähr die gleiche Leistung zu erzielen. Meine Frage ist: Stimmen die Leute hier dieser Behauptung zu? In meiner Arbeit habe ich die …
Das ist also eine sehr einfache und dumme Frage. Als ich in der Schule war, widmete ich dem gesamten Konzept der Simulationen im Unterricht jedoch nur sehr wenig Aufmerksamkeit, und das hat mich ein wenig verängstigt. Können Sie den Simulationsprozess mit Laien erklären? (Kann zur Generierung von Daten, Regressionskoeffizienten usw. …
Ich habe Daten, die die Ergebnisse der Feuerwehr-Aufnahmeprüfungen zeigen. Ich teste die Hypothese, dass Prüfungsergebnisse und ethnische Zugehörigkeit nicht voneinander unabhängig sind. Um dies zu testen, führte ich einen Pearson-Chi-Quadrat-Test in R durch. Die Ergebnisse zeigen, was ich erwartet hatte, aber es wurde die Warnung " In chisq.test(a) : Chi-squared …
Ich habe einige Definitionen von Rückruf und Genauigkeit gelesen, obwohl dies jedes Mal im Zusammenhang mit dem Abrufen von Informationen geschieht. Ich habe mich gefragt, ob jemand dies in einem Klassifizierungskontext etwas genauer erklären und vielleicht einige Beispiele veranschaulichen könnte. Angenommen, ich habe einen binären Klassifikator, der eine Genauigkeit von …
Ich habe einige Probleme mit der Herleitung der Lösung für die Gratregression. Ich kenne die Regressionslösung ohne den Regularisierungsbegriff: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.
Ich würde gerne Prädiktoren für eine stetige abhängige Variable aus einer Menge von 30 unabhängigen Variablen finden. Ich verwende die Lasso-Regression, wie sie im glmnet- Paket in R implementiert ist. Hier ist ein Dummy-Code: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) …
Ich habe mich eine Weile darüber gewundert. Ich finde es ein bisschen komisch, wie plötzlich es passiert. Warum brauchen wir eigentlich nur drei Uniformen, damit ZnZnZ_n so glatt wird? Und warum geschieht das Glätten so relativ schnell? Z2Z2Z_2 : Z3Z3Z_3 : (Bilder, die schamlos aus John D. Cooks Blog gestohlen …
Weiß jemand, wie man herausfindet, ob die Punkte 7, 16 und 29 Einflusspunkte sind oder nicht? Ich habe irgendwo gelesen, dass Cooks Entfernung kleiner als 1 ist, sie aber nicht. Habe ich recht?
Ich mache mich in Statistiken nur nass, also tut es mir leid, wenn diese Frage keinen Sinn ergibt. Ich habe Markov-Modelle verwendet, um versteckte Zustände (unfaire Casinos, Würfelwürfe usw.) und neuronale Netze vorherzusagen und die Klicks der Benutzer auf eine Suchmaschine zu untersuchen. Beide hatten verborgene Zustände, die wir mithilfe …
Ich bin daran interessiert, die Anzahl signifikanter Muster zu bestimmen, die aus einer Hauptkomponentenanalyse (PCA) oder einer empirischen Orthogonalfunktionsanalyse (EOF) hervorgehen. Ich bin besonders daran interessiert, diese Methode auf Klimadaten anzuwenden. Das Datenfeld ist eine MxN-Matrix, wobei M die Zeitdimension (z. B. Tage) und N die räumliche Dimension (z. B. …
Normalerweise treffe ich meine eigenen Entscheidungen, wenn ich Handlungen vorbereite. Ich frage mich jedoch, ob es Best Practices für die Erstellung von Plots gibt. Anmerkung: Robs Kommentar zu einer Antwort auf diese Frage ist hier sehr relevant.
Aus Wikipedia: Angenommen, Sie sind in einer Spielshow und haben die Wahl zwischen drei Türen: Hinter einer Tür steht ein Auto; hinter den anderen Ziegen. Sie wählen eine Tür, sagen Sie Nr. 1, und der Gastgeber, der weiß, was sich hinter den Türen befindet, öffnet eine weitere Tür, sagen Sie …
Ich fand eine gleichgerichtete Lineareinheit (ReLU), die an mehreren Stellen als Lösung für das Problem des verschwindenden Gradienten für neuronale Netze gelobt wurde . Das heißt, man verwendet max (0, x) als Aktivierungsfunktion. Wenn die Aktivierung positiv ist, ist dies offensichtlich besser als beispielsweise die Sigma-Aktivierungsfunktion, da ihre Herleitung immer …
Was wäre der Ansatz, um mithilfe von Dynamic Time Warping (DTW) ein Clustering von Zeitreihen durchzuführen? Ich habe über DTW gelesen, um Ähnlichkeiten zwischen zwei Zeitreihen zu finden, während sie zeitlich verschoben werden könnten. Kann ich diese Methode als Ähnlichkeitsmaß für Clustering-Algorithmen wie k-means verwenden?
In einer Normalverteilung hat die Regel 68-95-99.7 eine große Bedeutung für die Standardabweichung, aber was würde die Standardabweichung in einer nicht normalen Verteilung bedeuten (multimodal oder schief)? Würden alle Datenwerte noch innerhalb von 3 Standardabweichungen liegen? Haben wir Regeln wie die 68-95-99.7 für nicht normale Distributionen?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.