Als «kernel-trick» getaggte Fragen

Kernel-Methoden werden beim maschinellen Lernen verwendet, um lineare Techniken auf nichtlineare Situationen zu verallgemeinern, insbesondere SVMs, PCA und GPs. Nicht zu verwechseln mit [Kernel-Glättung] für die Kernel-Dichteschätzung (KDE) und die Kernel-Regression.

4
Wie kann man intuitiv erklären, was ein Kernel ist?
Bei vielen maschinellen Lernklassifikatoren (z. B. Support-Vektor-Maschinen) kann ein Kernel angegeben werden. Was wäre eine intuitive Art zu erklären, was ein Kernel ist? Ein Aspekt, über den ich nachgedacht habe, ist die Unterscheidung zwischen linearen und nichtlinearen Kerneln. In einfachen Worten könnte ich von "linearen Entscheidungsfunktionen" und "nichtlinearen Entscheidungsfunktionen" sprechen. …


3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 





3
Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist?
Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Für jede Menge von Vektoren Matrix = positiv semidefinit.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Eine Abbildung kann wie = …
35 svm  kernel-trick 

3
Gibt es ein Supervised-Learning-Problem, bei dem (tiefe) neuronale Netze offensichtlich keine anderen Methoden übertreffen konnten?
Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser …


3
Unterschied zwischen einem SVM und einem Perceptron
Ich bin ein bisschen verwirrt mit dem Unterschied zwischen einem SVM und einem Perzeptron. Lassen Sie mich hier versuchen, mein Verständnis zusammenzufassen, und bitte korrigieren Sie, wo ich falsch liege, und füllen Sie das aus, was ich verpasst habe. Das Perceptron versucht nicht, den Abstand zu optimieren. Solange eine Hyperebene …

4
Der Unterschied der Kernel in SVM?
Kann mir bitte jemand den Unterschied zwischen den Kerneln in SVM erklären: Linear Polynom Gaußscher (RBF) Sigmoid Denn wie wir wissen, wird der Kernel verwendet, um unseren Eingaberaum in einen hochdimensionalen Merkmalsraum abzubilden. Und in diesem Merkmalsraum finden wir die linear trennbare Grenze. Wann und warum werden sie verwendet (unter …

3
Feature Map für den Gaußschen Kernel
In SVM ist der Gaußsche Kern wie folgt definiert: wobei x, y \ in \ mathbb {R ^ n} . Ich kenne die explizite Gleichung von \ phi nicht . Ich will es wissen.x,y∈RnφK(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi Ich möchte auch wissen, ob ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right) wobei ci∈Rci∈Rc_i\in \mathbb R . Jetzt …


1
Welche Funktion könnte ein Kernel haben?
Im Kontext von maschinellem Lernen und Mustererkennung gibt es ein Konzept namens Kernel Trick . Bei Problemen, bei denen ich gefragt werde, ob eine Funktion eine Kernelfunktion sein kann oder nicht, was genau soll ich tun? Sollte ich zuerst prüfen, ob sie die Form der drei oder vier Kernfunktionen wie …

4
Wie projiziert man einen neuen Vektor auf den PCA-Raum?
Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
Den "Kernel-Trick" auf lineare Methoden anwenden?
Der Kernel-Trick wird in mehreren maschinellen Lernmodellen (z . B. SVM ) verwendet. Es wurde erstmals 1964 in der Arbeit "Theoretische Grundlagen der Potentialfunktionsmethode beim Lernen der Mustererkennung" vorgestellt. Die Wikipedia-Definition besagt, dass dies der Fall ist ein Verfahren zum Verwenden eines linearen Klassifikatoralgorithmus zum Lösen eines nichtlinearen Problems durch …

2
Was ist der Grund für die Matérn-Kovarianzfunktion?
Die Matérn-Kovarianzfunktion wird üblicherweise als Kernel-Funktion im Gaußschen Prozess verwendet. Es ist so definiert Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} Dabei ist eine Abstandsfunktion (wie die euklidische Distanz), ist die Gammafunktion, ist die …



3
Entspricht Kernel-PCA mit linearem Kernel Standard-PCA?
Wenn ich in der Kernel-PCA einen linearen Kernel wähle , wird sich das Ergebnis von der normalen linearen PCA unterscheiden ? Unterscheiden sich die Lösungen grundlegend oder gibt es einen genau definierten Zusammenhang?K(x,y)=x⊤yK(x,y)=x⊤yK(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf y
17 pca  kernel-trick 

1
Wie man die Wirkung von RBF SVM versteht
Wie kann ich verstehen, was der RBF-Kernel in SVM macht? Ich meine, ich verstehe die Mathematik, aber gibt es eine Möglichkeit, ein Gefühl dafür zu bekommen, wann dieser Kernel nützlich sein wird? Wären die Ergebnisse von kNN mit SVM / RBF verbunden, da die RBF Vektorabstände enthält? Gibt es eine …
17 svm  kernel-trick 

1
Was sind die Vorteile von Kernel-PCA gegenüber Standard-PCA?
Ich möchte einen Algorithmus in einem Artikel implementieren, der Kernel-SVD zum Zerlegen einer Datenmatrix verwendet. Ich habe also Materialien über Kernelmethoden und Kernel-PCA usw. gelesen. Aber es ist für mich immer noch sehr dunkel, besonders wenn es um mathematische Details geht, und ich habe ein paar Fragen. Warum Kernelmethoden? Oder …
17 pca  svd  kernel-trick 

6
Schnellste SVM-Implementierung
Eher eine allgemeine Frage. Ich verwende eine rbf-SVM für die vorhersagende Modellierung. Ich denke, mein aktuelles Programm muss definitiv etwas beschleunigt werden. Ich benutze Scikit Learn mit einer Grob- bis Feinrastersuche + Kreuzvalidierung. Jeder SVM-Lauf dauert ungefähr eine Minute, aber bei all den Iterationen finde ich es immer noch zu …

1
Grundlegendes zur Gaußschen Prozessregression in der Funktionsansicht mit unbegrenzter Dimensionsbasis
Es wird oft gesagt, dass die Gaußsche Prozessregression (GPR) der Bayes'schen linearen Regression mit einer (möglicherweise) unendlichen Anzahl von Basisfunktionen entspricht. Ich versuche derzeit, dies im Detail zu verstehen, um eine Vorstellung davon zu bekommen, welche Art von Modellen ich mit GPR ausdrücken kann. Glauben Sie, dass dies ein guter …

5
Kernel SVM: Ich möchte ein intuitives Verständnis der Abbildung auf einen höherdimensionalen Merkmalsraum und wie dies eine lineare Trennung ermöglicht
Ich versuche die Intuition hinter den SVMs des Kernels zu verstehen. Jetzt verstehe ich, wie linear SVM funktioniert, wobei eine Entscheidungslinie erstellt wird, die die Daten so gut wie möglich aufteilt. Ich verstehe auch das Prinzip der Portierung von Daten in einen höherdimensionalen Raum und wie dies das Finden einer …

2
Wie kann man beweisen, dass es keinen endlichen Merkmalsraum für den Gaußschen RBF-Kern gibt?
Wie zu beweisen ist, dass für die radiale Basisfunktion kein endlichdimensionaler Merkmalsraum wie z dass für einige wir haben ?k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})HHHΦ:Rn→HΦ:Rn→H\Phi: \text{R}^n \to Hk(x,y)=⟨Φ(x),Φ(y)⟩k(x,y)=⟨Φ(x),Φ(y)⟩k(x, y) = \langle \Phi(x), \Phi(y)\rangle




Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.