Als «machine-learning» getaggte Fragen

Algorithmen für maschinelles Lernen erstellen ein Modell der Trainingsdaten. Der Begriff "maschinelles Lernen" ist vage definiert; Es umfasst das, was auch als statistisches Lernen, Bestärkungslernen, unbeaufsichtigtes Lernen usw. bezeichnet wird. Fügen Sie immer einen spezifischeren Tag hinzu.


1
Haben stochastische Prozesse wie der Gaußsche Prozess / Dirichlet-Prozess Dichten? Wenn nicht, wie kann die Bayes-Regel auf sie angewendet werden?
Der Dirichlet-Prozess und der Gauß-Prozess werden oft als "Verteilungen über Funktionen" oder "Verteilungen über Verteilungen" bezeichnet. Kann ich in diesem Fall sinnvoll über die Dichte einer Funktion unter einem Hausarzt sprechen? Das heißt, haben der Gaußsche Prozess oder der Dirichlet-Prozess eine Vorstellung von einer Wahrscheinlichkeitsdichte? Wenn dies nicht der Fall …

3
Gaußsche Prozessregression für große Datenmengen
Ich habe aus Online-Videos und Vorlesungsskripten etwas über die Gaußsche Prozessregression gelernt. Wenn wir einen Datensatz mit Punkten haben, gehen wir davon aus, dass die Daten aus einem dimensionalen multivariaten Gaußschen Prozess stammen . Meine Frage ist also für den Fall, dass 10 Millionen beträgt. Funktioniert die Gaußsche Prozessregression noch? …

2
Zweck des Dirichlet-Rauschens im AlphaZero-Papier
In den Artikeln AlphaGo Zero und AlphaZero von DeepMind beschreiben sie das Hinzufügen von Dirichlet- Rauschen zu den vorherigen Wahrscheinlichkeiten von Aktionen vom Wurzelknoten (Board-Status) in der Monte-Carlo-Baumsuche: Weitere Explorations wird erreicht durch Zugabe von Dirichlet Rauschen zu den vorherigen Wahrscheinlichkeiten in dem Wurzelknoten , insbesondere , wo und ; …

1
Warum sind zufällige Fourier-Merkmale nicht negativ?
Zufällige Fourier-Funktionen liefern Annäherungen an Kernelfunktionen. Sie werden für verschiedene Kernelmethoden wie SVMs und Gaußsche Prozesse verwendet. Heute habe ich versucht, die TensorFlow-Implementierung zu verwenden, und für die Hälfte meiner Funktionen wurden negative Werte angezeigt . So wie ich es verstehe, sollte dies nicht passieren. Also ging ich zurück zum …


1
Wie berechnet man aus der Probe R im Quadrat?
Ich weiß, dass dies wahrscheinlich woanders diskutiert wurde, aber ich konnte keine explizite Antwort finden. Ich versuche, die Formel zu verwenden, um eines linearen Regressionsmodells außerhalb der Stichprobe zu berechnen , wobei die Summe der quadratischen Residuen und die Gesamtsumme der Quadrate ist. Für das Trainingsset ist das klarR2=1−SSR/SSTR2=1−SSR/SSTR^2 = …


1
Gibt es Anwendungen, bei denen SVM noch überlegen ist?
Der SVM-Algorithmus ist ziemlich alt - er wurde in den 1960er Jahren entwickelt, war aber in den 1990er und 2000er Jahren äußerst beliebt. Es ist ein klassischer (und sehr schöner) Teil von Kursen zum maschinellen Lernen. Heute scheinen neuronale Netze in der Medienverarbeitung (Bilder, Ton usw.) vollständig zu dominieren, während …

1
Ableitung des Kreuzentropieverlusts in word2vec
Ich versuche, mich durch den ersten Problemsatz des cs224d Online-Kurskurses in Stanford zu arbeiten, und ich habe einige Probleme mit Problem 3A: Wenn wir das Skip-Gramm-word2vec-Modell mit der Softmax-Vorhersagefunktion und der Cross-Entropy-Loss-Funktion verwenden, haben wir wollen die Gradienten in Bezug auf die vorhergesagten Wortvektoren berechnen. Also gegeben die Softmax-Funktion: wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) …

2
Was ist Bucketization?
Ich habe ohne Erfolg eine klare Erklärung für "Bucketization" im maschinellen Lernen gefunden. Was ich bisher verstehe, ist, dass die Bucketisierung der Quantisierung in der digitalen Signalverarbeitung ähnelt, bei der ein Bereich kontinuierlicher Werte durch einen diskreten Wert ersetzt wird. Ist das richtig? Was sind die Vor- und Nachteile (abgesehen …


3
Warum mögen Menschen reibungslose Daten?
Ich soll den Squared Exponential Kernel (SE) für die Gaußsche Prozessregression verwenden. Die Vorteile dieses Kernels sind: 1) einfach: nur 3 Hyperparameter; 2) glatt: Dieser Kernel ist Gaußsch. Warum mögen die Leute "Glätte" so sehr? Ich weiß, dass der Gaußsche Kern unendlich differenzierbar ist, aber ist das so wichtig? (Bitte …

2
Warum maximiert PCA die Gesamtvarianz der Projektion?
Christopher Bishop schreibt in seinem Buch Pattern Recognition and Machine Learning einen Beweis dafür, dass jede aufeinanderfolgende Hauptkomponente die Varianz der Projektion auf eine Dimension maximiert, nachdem die Daten in den orthogonalen Raum zu den zuvor ausgewählten Komponenten projiziert wurden. Andere zeigen ähnliche Beweise. Dies beweist jedoch nur, dass jede …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.