Support Vector Machine bezieht sich auf "eine Reihe verwandter überwachter Lernmethoden, die Daten analysieren und Muster erkennen, die für die Klassifizierungs- und Regressionsanalyse verwendet werden".
Ich verwende derzeit eine SVM mit einem linearen Kernel, um meine Daten zu klassifizieren. Es liegt kein Fehler im Trainingssatz vor. Ich habe verschiedene Werte für den Parameter ausprobiert ( ). Dies hat den Fehler im Test-Set nicht verändert.10 - 5 , … , 10 2CCC10- 5, … , 10210−5,…,10210^{-5}, …
Wie funktioniert eine Support Vector Machine (SVM) und was unterscheidet sie von anderen linearen Klassifikatoren wie dem linearen Perceptron , der linearen Diskriminanzanalyse oder der logistischen Regression ? * (* Ich denke über die zugrunde liegenden Motivationen für den Algorithmus, Optimierungsstrategien, Generalisierungsfähigkeiten und Laufzeitkomplexität nach. )
Bei vielen maschinellen Lernklassifikatoren (z. B. Support-Vektor-Maschinen) kann ein Kernel angegeben werden. Was wäre eine intuitive Art zu erklären, was ein Kernel ist? Ein Aspekt, über den ich nachgedacht habe, ist die Unterscheidung zwischen linearen und nichtlinearen Kerneln. In einfachen Worten könnte ich von "linearen Entscheidungsfunktionen" und "nichtlinearen Entscheidungsfunktionen" sprechen. …
Wenn Sie SVM verwenden, müssen Sie einen Kernel auswählen. Ich frage mich, wie ich einen Kernel auswählen soll. Irgendwelche Kriterien für die Kernelauswahl?
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Ich verstehe die Grundlagen des Ziels von Support Vector Machines in Bezug auf die Klassifizierung einer Eingabe in mehrere verschiedene Klassen, aber was ich nicht verstehe, sind einige der wichtigsten Details. Für den Anfang bin ich ein bisschen durch die Verwendung von Slack-Variablen verwirrt. Was ist ihr Zweck? Ich mache …
Ich habe über Kernel-PCA ( 1 , 2 , 3 ) mit Gauß- und Polynomkernen gelesen. Wie trennt der Gaußsche Kern scheinbar jede Art von nichtlinearen Daten außergewöhnlich gut? Bitte geben Sie eine intuitive Analyse sowie, wenn möglich, eine mathematische an. Was ist eine Eigenschaft des Gaußschen Kernels (mit ideal …
Viele Autoren von Artikeln, die ich gelesen habe, bejahen, dass SVMs eine überlegene Technik sind, um ihrem Regressions- / Klassifizierungsproblem zu begegnen. Oft besagt der Vergleich das SVMs anstelle von NNs Haben Sie eine starke Grundtheorie Erreichen Sie das globale Optimum durch quadratische Programmierung Haben Sie keine Probleme bei der …
In den letzten Jahren sind Convolutional Neural Networks (CNNs) zum Stand der Technik für die Objekterkennung in der Computersicht geworden. Typischerweise besteht ein CNN aus mehreren Faltungsschichten, gefolgt von zwei vollständig verbundenen Schichten. Eine Intuition dahinter ist, dass die Faltungsschichten eine bessere Darstellung der Eingabedaten lernen und die vollständig verbundenen …
Gradient Descent hat das Problem, in Local Minima hängen zu bleiben. Wir müssen Exponentialzeiten des Gradientenabfalls ausführen, um globale Minima zu finden. Kann mir jemand Alternativen zum Gradientenabstieg, wie sie beim Lernen neuronaler Netze angewendet werden, zusammen mit ihren Vor- und Nachteilen nennen?
Gibt es Richtlinien für die Auswahl eines linearen Kernels im Vergleich zu einem nichtlinearen Kernel wie RBF, wenn Sie Support Vector Machine verwenden? Ich habe einmal gehört, dass ein nichtlinearer Kernel bei einer großen Anzahl von Features in der Regel keine gute Leistung erbringt. Gibt es Referenzen zu diesem Thema?
Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …
Kann mir bitte jemand eine Vorstellung davon geben, wann ich mich für SVM oder LR entscheiden soll? Ich möchte die Intuition hinter dem Unterschied zwischen den Optimierungskriterien für das Erlernen der Hyperebene der beiden verstehen, wobei die jeweiligen Ziele wie folgt lauten: SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen …
Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß. Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt. Zweitens bin ich beim Studium der Überanpassung …
Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Für jede Menge von Vektoren Matrix = positiv semidefinit.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Eine Abbildung kann wie = …
Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser …
Ich habe einen Streaming-Datensatz, Beispiele sind einzeln verfügbar. Ich müsste sie in mehreren Klassen klassifizieren. Sobald ich dem Lernprozess ein Trainingsbeispiel gegeben habe, muss ich das Beispiel verwerfen. Gleichzeitig verwende ich auch das neueste Modell, um Vorhersagen für unbeschriftete Daten durchzuführen. Meines Wissens ist ein neuronales Netzwerk in der Lage, …
Kann mir jemand sagen, was mit dem Ausdruck "schwacher Lernender" gemeint ist? Soll es eine schwache Hypothese sein? Ich bin verwirrt über die Beziehung zwischen einem schwachen Lernenden und einem schwachen Klassifikator. Sind beide gleich oder gibt es einen Unterschied? In dem Adaboost-Algorithmus T=10. Was ist damit gemeint? Warum wählen …
Wie allen bekannt ist, kann SVM die Kernel-Methode verwenden, um Datenpunkte in höhere Räume zu projizieren, sodass Punkte durch einen linearen Raum getrennt werden können. Wir können aber auch die logistische Regression verwenden, um diese Grenze im Kernelraum zu wählen. Was sind also die Vorteile von SVM? Da SVM ein …
Ich verwende SVM zur Klassifizierung und versuche, die optimalen Parameter für lineare und RBF-Kernel zu ermitteln. Für den linearen Kernel verwende ich eine kreuzvalidierte Parameterauswahl, um C zu bestimmen, und für den RBF-Kernel verwende ich eine Gittersuche, um C und Gamma zu bestimmen. Ich habe 20 (numerische) Funktionen und 70 …
Ich verwende das Tool libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) zur Unterstützung der Vektorklassifizierung. Ich bin jedoch verwirrt über das Format der Eingabedaten. Aus der README: Das Format der Trainings- und Testdatendatei ist: <label> <index1>:<value1> <index2>:<value2> ... . . . Jede Zeile enthält eine Instanz und wird mit einem '\ n'-Zeichen abgeschlossen. …
Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht. Es ist wahrscheinlich, dass ich auf hochdimensionale Daten stoße …
Ich bin ein bisschen verwirrt mit dem Unterschied zwischen einem SVM und einem Perzeptron. Lassen Sie mich hier versuchen, mein Verständnis zusammenzufassen, und bitte korrigieren Sie, wo ich falsch liege, und füllen Sie das aus, was ich verpasst habe. Das Perceptron versucht nicht, den Abstand zu optimieren. Solange eine Hyperebene …
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
Ich habe gelernt, dass der erste Schritt beim Umgang mit Daten mithilfe eines modellbasierten Ansatzes die Modellierung von Datenprozeduren als statistisches Modell ist. Der nächste Schritt ist die Entwicklung eines effizienten / schnellen Inferenz- / Lernalgorithmus basierend auf diesem statistischen Modell. Ich möchte also fragen, welches statistische Modell hinter dem …
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.