Statistiken und Big Data kernel-trick

4

Wie kann man intuitiv erklären, was ein Kernel ist?

Bei vielen maschinellen Lernklassifikatoren (z. B. Support-Vektor-Maschinen) kann ein Kernel angegeben werden. Was wäre eine intuitive Art zu erklären, was ein Kernel ist? Ein Aspekt, über den ich nachgedacht habe, ist die Unterscheidung zwischen linearen und nichtlinearen Kerneln. In einfachen Worten könnte ich von "linearen Entscheidungsfunktionen" und "nichtlinearen Entscheidungsfunktionen" sprechen. …

97 machine-learning svm references kernel-trick intuition

4

Wie wähle ich den Kernel für SVM aus?

Wenn Sie SVM verwenden, müssen Sie einen Kernel auswählen. Ich frage mich, wie ich einen Kernel auswählen soll. Irgendwelche Kriterien für die Kernelauswahl?

95 machine-learning svm kernel-trick

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Was ist ein "Kernel" im Klartext?

Es gibt verschiedene Verwendungszwecke: Schätzung der Kerndichte Kernel-Trick Kernel-Glättung Bitte erläutern Sie, was der "Kernel" in ihnen im Klartext in Ihren eigenen Worten bedeutet.

73 kernel-trick kernel-smoothing

4

Was macht den Gaußschen Kernel so magisch für PCA und auch im Allgemeinen?

Ich habe über Kernel-PCA ( 1 , 2 , 3 ) mit Gauß- und Polynomkernen gelesen. Wie trennt der Gaußsche Kern scheinbar jede Art von nichtlinearen Daten außergewöhnlich gut? Bitte geben Sie eine intuitive Analyse sowie, wenn möglich, eine mathematische an. Was ist eine Eigenschaft des Gaußschen Kernels (mit ideal …

67 machine-learning pca svm kernel-trick

2

Linearer Kernel und nichtlinearer Kernel für Support-Vektor-Maschine?

Gibt es Richtlinien für die Auswahl eines linearen Kernels im Vergleich zu einem nichtlinearen Kernel wie RBF, wenn Sie Support Vector Machine verwenden? Ich habe einmal gehört, dass ein nichtlinearer Kernel bei einer großen Anzahl von Features in der Regel keine gute Leistung erbringt. Gibt es Referenzen zu diesem Thema?

45 machine-learning classification svm references kernel-trick

4

Wie kann SVM einen unendlichen Merkmalsraum finden, in dem eine lineare Trennung immer möglich ist?

Was ist die Intuition dahinter, dass eine SVM mit einem Gaußschen Kern einen unendlich dimensionalen Merkmalsraum hat?

36 svm feature-selection kernel-trick

3

Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist?

Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Für jede Menge von Vektoren Matrix = positiv semidefinit.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Eine Abbildung kann wie = …

35 svm kernel-trick

3

Gibt es ein Supervised-Learning-Problem, bei dem (tiefe) neuronale Netze offensichtlich keine anderen Methoden übertreffen konnten?

Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser …

33 machine-learning svm kernel-trick supervised-learning

2

Welcher Suchbereich zur Bestimmung der SVM-optimalen C- und Gamma-Parameter?

Ich verwende SVM zur Klassifizierung und versuche, die optimalen Parameter für lineare und RBF-Kernel zu ermitteln. Für den linearen Kernel verwende ich eine kreuzvalidierte Parameterauswahl, um C zu bestimmen, und für den RBF-Kernel verwende ich eine Gittersuche, um C und Gamma zu bestimmen. Ich habe 20 (numerische) Funktionen und 70 …

32 classification svm kernel-trick

3

Unterschied zwischen einem SVM und einem Perceptron

Ich bin ein bisschen verwirrt mit dem Unterschied zwischen einem SVM und einem Perzeptron. Lassen Sie mich hier versuchen, mein Verständnis zusammenzufassen, und bitte korrigieren Sie, wo ich falsch liege, und füllen Sie das aus, was ich verpasst habe. Das Perceptron versucht nicht, den Abstand zu optimieren. Solange eine Hyperebene …

29 machine-learning svm kernel-trick

4

Der Unterschied der Kernel in SVM?

Kann mir bitte jemand den Unterschied zwischen den Kerneln in SVM erklären: Linear Polynom Gaußscher (RBF) Sigmoid Denn wie wir wissen, wird der Kernel verwendet, um unseren Eingaberaum in einen hochdimensionalen Merkmalsraum abzubilden. Und in diesem Merkmalsraum finden wir die linear trennbare Grenze. Wann und warum werden sie verwendet (unter …

26 machine-learning svm pattern-recognition kernel-trick

3

Feature Map für den Gaußschen Kernel

In SVM ist der Gaußsche Kern wie folgt definiert: wobei x, y \ in \ mathbb {R ^ n} . Ich kenne die explizite Gleichung von \ phi nicht . Ich will es wissen.x,y∈RnφK(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi Ich möchte auch wissen, ob ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right) wobei ci∈Rci∈Rc_i\in \mathbb R . Jetzt …

24 machine-learning svm kernel-trick

3

Ist Gradient Descent für kernelisierte SVMs möglich (wenn ja, warum wird quadratische Programmierung verwendet)?

Warum verwenden Leute Techniken der quadratischen Programmierung (wie SMO), wenn sie mit kernelisierten SVMs arbeiten? Was ist los mit Gradient Descent? Kann man es nicht mit Kerneln benutzen oder ist es einfach zu langsam (und warum?). Hier ist ein wenig mehr Kontext: Um die SVMs ein bisschen besser zu verstehen, …

21 svm kernel-trick gradient-descent

1

Welche Funktion könnte ein Kernel haben?

Im Kontext von maschinellem Lernen und Mustererkennung gibt es ein Konzept namens Kernel Trick . Bei Problemen, bei denen ich gefragt werde, ob eine Funktion eine Kernelfunktion sein kann oder nicht, was genau soll ich tun? Sollte ich zuerst prüfen, ob sie die Form der drei oder vier Kernfunktionen wie …

21 machine-learning kernel-trick

Als «kernel-trick» getaggte Fragen