Ich versuche, einen Satz von Gleichungen zu lösen, der 40 unabhängige Variablen (x1, ..., x40) und eine abhängige Variable (y) enthält. Die Gesamtzahl der Gleichungen (Anzahl der Zeilen) beträgt ~ 300, und ich möchte nach dem Satz von 40 Koeffizienten suchen, der den gesamten quadratischen Fehlersummen zwischen y und dem …
Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …
Ich baue oft ein Modell (Klassifizierung oder Regression) auf, in dem ich einige Prädiktorvariablen habe, bei denen es sich um Sequenzen handelt, und ich habe versucht, technische Empfehlungen zu finden, um sie bestmöglich zusammenzufassen und als Prädiktoren in das Modell aufzunehmen. Angenommen, es wird ein Modell erstellt, um vorherzusagen, ob …
Ich dachte, dass das generalisierte lineare Modell (GLM) als statistisches Modell angesehen werden würde, aber ein Freund sagte mir, dass einige Artikel es als maschinelles Lernen klassifizieren. Welches ist wahr (oder genauer)? Jede Erklärung wäre willkommen.
Wir haben also das Potenzial für eine Anwendung für maschinelles Lernen, die ziemlich gut in die traditionelle Problemdomäne passt, die durch Klassifizierer gelöst wird, dh wir haben eine Reihe von Attributen, die ein Element und einen "Bucket" beschreiben, in dem sie landen. Anstatt jedoch Modelle zu erstellen Bei Wahrscheinlichkeiten wie …
Ich verwende derzeit SVM und skaliere meine Trainingsfunktionen auf den Bereich von [0,1]. Ich passe zuerst mein Trainingsset an / transformiere es und wende dann dieselbe Transformation auf mein Testset an. Zum Beispiel: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …
t-SNE reduziert wie in [1] schrittweise die Kullback-Leibler (KL) -Divergenz, bis eine bestimmte Bedingung erfüllt ist. Die Entwickler von t-SNE schlagen vor, die KL-Divergenz als Leistungskriterium für die Visualisierungen zu verwenden: Sie können die von t-SNE gemeldeten Kullback-Leibler-Divergenzen vergleichen. Es ist vollkommen in Ordnung, t-SNE zehnmal auszuführen und die Lösung …
Ich bin sehr neu in Deep Learning und ich bin besonders daran interessiert zu wissen, was LSTM und BiLSTM sind und wann ich sie verwenden soll (Hauptanwendungsbereiche). Warum sind LSTM und BILSTM beliebter als RNN? Können wir diese Deep-Learning-Architekturen bei unbeaufsichtigten Problemen verwenden?
Ich bin etwas verwirrt über den Unterschied zwischen den Begriffen "Maschinelles Lernen" und "Deep Learning". Ich habe es gegoogelt und viele Artikel gelesen, aber es ist mir immer noch nicht sehr klar. Eine bekannte Definition von maschinellem Lernen von Tom Mitchell ist: Ein Computerprogramm soll aus der Erfahrung E in …
In der folgenden Grafik x-Achse => Datensatzgröße y-Achse => Kreuzvalidierungsergebnis Die rote Linie steht für Trainingsdaten Die grüne Linie dient zum Testen von Daten In einem Tutorial, auf das ich mich beziehe, sagt der Autor, dass der Punkt, an dem sich die rote und die grüne Linie überlappen, bedeutet: Es …
Was passiert, wenn wir eine grundlegende Support-Vektor-Maschine (linearer Kernel und kein Soft-Margin) auf nicht linear trennbaren Daten trainieren? Das Optimierungsproblem ist nicht realisierbar. Was gibt der Minimierungsalgorithmus zurück?
Ich lese darüber SVMund habe mich dem Punkt gestellt, dass nicht kernelisierte SVMsnichts anderes als lineare Trennzeichen sind. Ist daher der einzige Unterschied zwischen einer SVMund einer logistischen Regression das Kriterium für die Wahl der Grenze? Anscheinend SVMwählt der maximale Margenklassifikator und die logistische Regression ist diejenige, die den cross-entropyVerlust …
Ich arbeite mit einem Datensatz mit einer großen Anzahl von kategorialen Merkmalen (> 80%), die eine kontinuierliche Zielvariable (dh Regression) vorhersagen. Ich habe ziemlich viel darüber gelesen, wie man mit kategorialen Merkmalen umgeht. Und erfuhr , dass One-Hot - Codierung ich in Vergangenheit verwendet habe vor allem sehr schlechte Idee …
"Ein häufiger Fehler, den ich machen würde, ist das Hinzufügen einer Nichtlinearität zu meiner Protokollausgabe." Was bedeutet der Begriff "logit" hier oder was bedeutet er?
Was bedeutet "Baseline" im Kontext von maschinellem Lernen und Datenwissenschaft? Jemand hat mir geschrieben: Hinweis: Eine geeignete Basislinie ergibt einen RMSE von ungefähr 200. Ich verstehe das nicht. Bedeutet er, dass es gut ist, wenn mein Vorhersagemodell für die Trainingsdaten einen RMSE unter 500 aufweist? Und was könnte ein "Baseline-Ansatz" …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.