Als «hyperparameter» getaggte Fragen

Ein Parameter, der nicht ausschließlich für das statistische Modell (oder den Datenerzeugungsprozess) gilt, sondern für die statistische Methode. Dies kann ein Parameter sein für: eine Familie früherer Verteilungen, Glättung, eine Strafe für Regularisierungsmethoden oder einen Optimierungsalgorithmus.

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 



1
Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …

3
Was ist der Grund, warum der Adam Optimizer für den Wert seiner Hyperparameter als robust angesehen wird?
Ich habe über den Adam-Optimierer für Deep Learning gelesen und bin in dem neuen Buch Deep Learning von Bengio, Goodfellow und Courville auf folgenden Satz gestoßen: Adam wird allgemein als ziemlich robust gegenüber der Auswahl von Hyperparametern angesehen, obwohl die Lernrate manchmal von der vorgeschlagenen Standardeinstellung geändert werden muss. Wenn …

2
Natürliche Interpretation für LDA-Hyperparameter
Kann jemand erklären, was die natürliche Interpretation für LDA-Hyperparameter ist? ALPHAund BETAsind Parameter von Dirichlet-Verteilungen für (pro Dokument) Themen- bzw. (pro Thema) Wortverteilungen. Kann jemand erklären, was es bedeutet, größere Werte dieser Hyperparameter gegenüber kleineren Werten zu wählen? Bedeutet das, dass vorher in Bezug auf die thematische Sparsamkeit in Dokumenten …


5
Was ist in einem Namen: Hyperparameter
In einer Normalverteilung haben wir also zwei Parameter: mean und varance . Im Buch Mustererkennung und maschinelles Lernen taucht plötzlich ein Hyperparameter in den Regularisierungsbegriffen der Fehlerfunktion auf.μμ\muσ2σ2\sigma^2λλ\lambda Was sind Hyperparameter? Warum heißen sie so? Und wie unterscheiden sie sich intuitiv von Parametern im Allgemeinen?

6
Ist die Optimierung von Hyperparametern für eine Stichprobe eines Datensatzes eine schlechte Idee?
Ich habe einen Datensatz mit 140000 Beispielen und 30 Funktionen, für die ich mehrere Klassifikatoren für eine binäre Klassifizierung trainiere (SVM, Logistic Regression, Random Forest usw.). In vielen Fällen ist die Optimierung von Hyperparametern für den gesamten Datensatz mithilfe der Raster- oder Zufallssuche zeitlich zu kostspielig. Ich begann mit der …

2
Vorteile der Partikelschwarmoptimierung gegenüber der Bayes'schen Optimierung für das Hyperparameter-Tuning?
Es gibt umfangreiche aktuelle Forschungen zur Bayesianischen Optimierung (1) zur Optimierung von ML-Hyperparametern. Die treibende Motivation dabei ist, dass eine minimale Anzahl von Datenpunkten erforderlich ist, um fundierte Entscheidungen darüber zu treffen, welche Punkte es wert sind, ausprobiert zu werden (objektive Funktionsaufrufe sind teuer, weniger zu machen ist also besser), …

1
Wie erstelle ich das endgültige Modell und optimiere den Wahrscheinlichkeitsschwellenwert nach einer verschachtelten Kreuzvalidierung?
Erstens, Entschuldigung für das Posten einer Frage, die hier , hier , hier , hier , hier bereits ausführlich besprochen wurde, und zum Aufwärmen eines alten Themas. Ich weiß, dass @DikranMarsupial ausführlich über dieses Thema in Beiträgen und Fachzeitschriften geschrieben hat, aber ich bin immer noch verwirrt, und der Anzahl …

3
Wie erhält man Hyperparameter in einer verschachtelten Kreuzvalidierung?
Ich habe die folgenden Beiträge zur geschachtelten Kreuzvalidierung gelesen und bin mir immer noch nicht 100% sicher, was ich mit der Modellauswahl mit geschachtelter Kreuzvalidierung tun soll: Verschachtelte Kreuzvalidierung für die Modellauswahl Modellauswahl und Kreuzvalidierung: Der richtige Weg Lassen Sie mich, um meine Verwirrung zu erklären, Schritt für Schritt durch …

3
Wie sollten Feature-Auswahl und Hyperparameter-Optimierung in der Pipeline für maschinelles Lernen angeordnet werden?
Mein Ziel ist es, Sensorsignale zu klassifizieren. Das bisherige Konzept meiner Lösung lautet: i) Konstruieren von Features aus dem Rohsignal ii) Auswählen relevanter Features mit ReliefF und einem Clustering-Ansatz iii) Anwenden von NN, Random Forest und SVM Ich bin jedoch in einem Dilemma gefangen. In ii) und iii) gibt es …

2
Ist die Entscheidungsschwelle ein Hyperparameter in der logistischen Regression?
Die vorhergesagten Klassen aus der (binären) logistischen Regression werden unter Verwendung eines Schwellenwerts für die Wahrscheinlichkeiten der Klassenmitgliedschaft bestimmt, die vom Modell generiert werden. Soweit ich weiß, wird standardmäßig 0,5 verwendet. Das Variieren des Schwellenwerts ändert jedoch die vorhergesagten Klassifizierungen. Bedeutet dies, dass die Schwelle ein Hyperparameter ist? Wenn ja, …

3
Optimierung der Hyperparameter: Zufallssuche vs. Bayes'sche Optimierung
Wir wissen also, dass die Zufallssuche besser funktioniert als die Rastersuche, aber ein neuerer Ansatz ist die Bayes'sche Optimierung (unter Verwendung von Gauß'schen Prozessen). Ich habe einen Vergleich zwischen den beiden nachgeschlagen und nichts gefunden. Ich weiß, dass sie bei Stanfords cs231n nur zufällige Suche erwähnen, aber es ist möglich, …

1
Auswahl einer geeigneten Minibatch-Größe für den stochastischen Gradientenabstieg (SGD)
Gibt es Literatur, die die Wahl der Minibatch-Größe bei der Durchführung eines stochastischen Gradientenabfalls untersucht? Nach meiner Erfahrung scheint es sich um eine empirische Entscheidung zu handeln, die normalerweise durch Kreuzvalidierung oder unter Verwendung unterschiedlicher Faustregeln getroffen wird. Ist es eine gute Idee, die Minibatch-Größe langsam zu erhöhen, wenn der …

1
Hyperparameter-Tuning in der Gaußschen Prozessregression
Ich versuche, die Hyperparameter des von mir implementierten Gaußschen Prozessregressionsalgorithmus abzustimmen. Ich möchte einfach die logarithmische Grenzwahrscheinlichkeit maximieren, die durch die Formel wobeiKdie Kovarianzmatrix mit den ElementenKij=k(xi,xj)=b-1exp(- istLog( y | X., Θ ) = - 12yT.K.- 1yy - 12Log( det ( K.) ) - n2Log( 2 π)Log⁡(y|X.,θ)=- -12yT.K.y- -1y- -12Log⁡(det(K.))- …

1
Hyperprior-Dichte für hierarchisches Gamma-Poisson-Modell
In einem hierarchischen Datenmodell yyy in dem y∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta) , scheint es in der Praxis typisch zu sein, Werte ( α,β)α,β)\alpha, \beta) so zu dass der Mittelwert und die Varianz von Die Gammaverteilung stimmt ungefähr mit dem Mittelwert und der Varianz der Daten überein yyy(z. …


2
Wie verwende ich XGboost.cv mit der Optimierung von Hyperparametern?
Ich möchte die Hyperparameter von XGboost mithilfe der Kreuzvalidierung optimieren. Es ist jedoch nicht klar, wie man das Modell erhält xgb.cv. Zum Beispiel rufe ich objective(params)von an fmin. Dann wird das Modell montiert dtrainund validiert dvalid. Was ist, wenn ich KFold Crossvalidation verwenden möchte, anstatt zu trainieren dtrain? from hyperopt …




1
Warum gehen Informationen über die Validierungsdaten verloren, wenn ich beim Optimieren von Hyperparametern die Modellleistung anhand von Validierungsdaten bewerte?
In François Chollets Deep Learning with Python heißt es: Infolgedessen kann das Optimieren der Konfiguration des Modells basierend auf seiner Leistung im Validierungssatz schnell zu einer Überanpassung an den Validierungssatz führen, obwohl Ihr Modell niemals direkt darauf trainiert wird. Zentral für dieses Phänomen ist der Begriff der Informationslecks. Jedes Mal, …

1
Was sind einige der Nachteile der Bayes'schen Hyperparameteroptimierung?
Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie dieses: https://github.com/fmfn/BayesianOptimization Hat die Bayes'sche Optimierung Ihrer Hyperparameter eine Einschränkung …

1
Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …

1
Vollständig Bayesianische Hyperparameterauswahl in GPML
Ist es möglich, mit dem GPML-Code eine ungefähre vollständige Bayes'sche (1) Auswahl von Hyperparametern (z. B. Kovarianzskala) durchzuführen, anstatt die Grenzwahrscheinlichkeit zu maximieren (2)? Ich denke, die Verwendung von MCMC-Methoden zur Lösung der Integrale mit Hyperparametern sollte zu besseren Ergebnissen führen, wenn es um Überanpassung geht. Meines Wissens enthält das …

2
Verständnis des frühen Stopps in neuronalen Netzen und seiner Auswirkungen bei der Verwendung der Kreuzvalidierung
Ich bin ein bisschen beunruhigt und verwirrt über die Idee, wie die Technik des frühen Stoppens definiert wird. Wenn Sie sich Wikipedia ansehen , ist es wie folgt definiert: Teilen Sie die Trainingsdaten in einen Trainingssatz und einen Validierungssatz auf, z. B. im Verhältnis 2 zu 1. Trainieren Sie nur …

3
Schrittweise Erklärung der K-fachen Kreuzvalidierung mit Rastersuche zur Optimierung von Hyperparametern
Ich bin mir der Vorteile der k-fachen (und ausgelassenen) Kreuzvalidierung sowie der Vorteile der Aufteilung Ihres Trainingssatzes zur Erstellung eines dritten Holdout-Validierungssatzes bewusst, den Sie zur Bewertung verwenden Modellleistung basierend auf der Auswahl von Hyperparametern, sodass Sie diese optimieren und optimieren und die besten auswählen können, die schließlich am realen …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.