Als «machine-learning» getaggte Fragen

Algorithmen für maschinelles Lernen erstellen ein Modell der Trainingsdaten. Der Begriff "maschinelles Lernen" ist vage definiert; Es umfasst das, was auch als statistisches Lernen, Bestärkungslernen, unbeaufsichtigtes Lernen usw. bezeichnet wird. Fügen Sie immer einen spezifischeren Tag hinzu.


2
Oberes Vertrauen in maschinelles Lernen gebunden
Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen …

2
Merkmalsauswahl auf einem Bayes'schen hierarchischen verallgemeinerten linearen Modell
Ich möchte eine hierarchische GLM schätzen, aber mit Merkmalsauswahl, um zu bestimmen, welche Kovariaten auf Bevölkerungsebene relevant sind, um sie einzubeziehen. Angenommen, ich habe GGG Gruppen mit NNN Beobachtungen und KKK möglichen Kovariaten. Das heißt, ich habe eine Entwurfsmatrix von Kovariaten , Ergebnissen . Die Koeffizienten für diese Kovariaten sind …

1
Bestraft die L2-Normalisierung der Gratregression das Abfangen? Wenn nicht, wie kann man seine Ableitung lösen?
Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen:θ0θ0\theta_{0}∇θJ(θ)=12∑i=1m(hθ⃗ (x(i))−y(i))2+λ∑j=1nθ2j∇θJ(θ)=12∑i=1m(hθ→(x(i))−y(i))2+λ∑j=1nθj2 \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} λ∑nj=1θ2jλ∑j=1nθj2\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}j=1j=1j=1nnnj=0j=0j=0nnn In den meisten Fällen (in allen Fällen?) …


2
Funktionsbedeutung / Auswirkung für individuelle Vorhersagen
Auf Modellebene können wir zur Bewertung des Beitrags / der Bedeutung von Prädiktoren Folgendes verwenden: Modellspezifische Techniken - z. B. Reinheit (Gini-Index) für ein baumbasiertes Modell, gegebenenfalls Modellkoeffizienten usw. Modellunabhängige Techniken - z. B. Bedeutung von Permutationsmerkmalen, partielle Abhängigkeit usw. Was dies nicht vermittelt, ist für eine bestimmte Vorhersage (z. …

1
Unterschied zwischen simuliertem Tempern und mehrfachem Gier
Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …

1
MSE als Proxy für Pearsons Korrelation bei Regressionsproblemen
TL; DR (zu lang, nicht gelesen): Ich arbeite an einem Zeitreihen-Vorhersageproblem, das ich mit Deep Learning (Keras) als Regressionsproblem formuliere. Ich möchte die Pearson-Korrelation zwischen meiner Vorhersage und den wahren Bezeichnungen optimieren. Ich bin verwirrt über die Tatsache, dass die Verwendung von MSE als Proxy tatsächlich zu besseren Ergebnissen (in …

1
Was sind einige der Nachteile der Bayes'schen Hyperparameteroptimierung?
Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie dieses: https://github.com/fmfn/BayesianOptimization Hat die Bayes'sche Optimierung Ihrer Hyperparameter eine Einschränkung …

1
Gruppe elastisches Netz
Das Lasso und das elastische Netz können keine Variablen mit mehr als zwei Kategorien verarbeiten. Daher ist für die Anwendung dieser Methoden eine Aufteilung der kategorialen Variablen in Dummies erforderlich. Dies kann zu mehreren Problemen führen, und daher gibt es Erweiterungen für das Lasso zum Gruppen-Lasso oder zum spärlichen Gruppen-Lasso …

2
Feature, das durch maximales Pooling im Vergleich zum mittleren Pooling extrahiert wurde
Ist es beim Deep Learning und seiner Anwendung auf Computer Vision möglich zu erkennen, welche Funktionen diese beiden Arten von Pooling-Extrakten bieten? Kann man beispielsweise sagen, dass der maximale Pool Kanten extrahiert? Können wir etwas Ähnliches in Bezug auf Mean Pooling sagen? PS Sie können gerne empfehlen, ob der Stapelüberlauf …

1
Warum wird sqrt (6) verwendet, um epsilon für die zufällige Initialisierung neuronaler Netze zu berechnen?
In den Vorlesungsunterlagen der 5. Woche für Andrew Ngs Coursera Machine Learning Class wird die folgende Formel zur Berechnung des Werts von der zum Initialisieren von mit zufälligen Werten verwendet wird:ϵϵ\epsilonΘΘ\Theta In der Übung werden weitere Erläuterungen gegeben: Eine effektive Strategie für die Auswahl von besteht darin, sie auf der …



2
Verwenden Boosting-Techniken Abstimmungen wie jede andere Ensemble-Methode?
Können wir alle Ensemblemethoden durch Abstimmung verallgemeinern? Verwenden Boosting-Methoden auch Abstimmungen, um die schwachen Lernenden in das endgültige Modell zu bringen? Mein Verständnis der Technik: Boosting: Fügt kontinuierlich schwache Lernende hinzu, um die Datenpunkte zu verbessern, die nicht korrekt klassifiziert wurden. Ensemble-Technik: Verwendet mehrere Lernende, um eine bessere Vorhersage zu …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.