Als «machine-learning» getaggte Fragen

Algorithmen für maschinelles Lernen erstellen ein Modell der Trainingsdaten. Der Begriff "maschinelles Lernen" ist vage definiert; Es umfasst das, was auch als statistisches Lernen, Bestärkungslernen, unbeaufsichtigtes Lernen usw. bezeichnet wird. Fügen Sie immer einen spezifischeren Tag hinzu.

1
Diskussion über Überanpassung in xgboost
Mein Setup ist wie folgt: Ich folge den Richtlinien in "Applied Predictive Modeling". Daher habe ich korrelierte Merkmale gefiltert und erhalte am Ende Folgendes: 4900 Datenpunkte im Trainingssatz und 1600 Datenpunkte im Testsatz. Ich habe 26 Funktionen und das Ziel ist eine kontinuierliche Variable. Ich wende eine 5-fache Kreuzvalidierung an, …


3
Ist ein Entscheidungsstumpf ein lineares Modell?
Entscheidungsstumpf ist ein Entscheidungsbaum mit nur einer Teilung. Es kann auch als stückweise Funktion geschrieben werden. Angenommen, ist ein Vektor und ist die erste Komponente von . Bei der Regressionseinstellung kann es sich um einen Entscheidungsstumpf handelnx 1 xxxxx1x1x_1xxx f( x ) = { 35x1≤ 2x1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq …

5
Welche Datensätze eignen sich zum Erlernen grundlegender Algorithmen für maschinelles Lernen und warum?
Ich bin neu im maschinellen Lernen und suche nach Datensätzen, mit denen ich die Unterschiede zwischen verschiedenen Algorithmen für maschinelles Lernen (Decision Trees, Boosting, SVM und Neuronale Netze) vergleichen und gegenüberstellen kann. Wo finde ich solche Datensätze? Wonach sollte ich suchen, wenn ich einen Datensatz in Betracht ziehe? Es wäre …


2
Boosting: Warum wird die Lernrate als Regularisierungsparameter bezeichnet?
Der Lernratenparameter ( ) in Gradient Boosting verringert den Beitrag jedes neuen Basismodells - normalerweise eines flachen Baums -, das in der Reihe hinzugefügt wird. Es hat sich gezeigt, dass die Genauigkeit des Testsatzes drastisch erhöht wird, was verständlich ist, da mit kleineren Schritten das Minimum der Verlustfunktion genauer erreicht …


2
Was bedeutet der Name "Logistische Regression"?
Von hier aus überprüfe ich eine Implementierung von Logistic Regression . Nachdem ich diesen Artikel gelesen habe, scheint es wichtig zu sein, die besten Koeffizienten für die Bestimmung der Sigmoidfunktion zu finden. Ich frage mich nur, warum diese Methode "Logistische Regression" heißt. Hängt es mit der logarithmischen Funktion zusammen? Vielleicht …


1
Predictive Modeling - Sollten wir uns für gemischte Modelle interessieren?
Müssen wir uns für die prädiktive Modellierung mit statistischen Konzepten wie zufälligen Effekten und der Nichtunabhängigkeit von Beobachtungen (wiederholte Messungen) befassen? Beispielsweise.... Ich habe Daten aus 5 Direktmailing-Kampagnen (die im Laufe eines Jahres durchgeführt wurden) mit verschiedenen Attributen und einer Kaufmarkierung. Idealerweise würde ich all diese Daten zusammen verwenden, um …


2
Wann ist „Nächster Nachbar“ heute sinnvoll?
1999 stellten Beyer et al. gefragt, wann ist "Nächster Nachbar" sinnvoll? Gibt es seit 1999 bessere Möglichkeiten zur Analyse und Visualisierung der Auswirkung der Abstandsflachheit auf die NN-Suche? Bietet [ein gegebener] Datensatz aussagekräftige Antworten auf das 1-NN-Problem? Das 10-NN-Problem? Das 100-NN-Problem? Wie würden Sie Experten diese Frage heute angehen? Änderungen …

6
Was ist die Grundidee des maschinellen Lernens zum Schätzen von Parametern?
Die Grundidee der Statistik zur Schätzung von Parametern ist die maximale Wahrscheinlichkeit . Ich frage mich, was der entsprechende Gedanke beim maschinellen Lernen ist. Frage 1: Wäre es fair zu sagen, dass die Grundidee des maschinellen Lernens zur Schätzung von Parametern lautet: "Verlustfunktionen"? [Anmerkung: Ich habe den Eindruck, dass Algorithmen …

6
Ist die Optimierung von Hyperparametern für eine Stichprobe eines Datensatzes eine schlechte Idee?
Ich habe einen Datensatz mit 140000 Beispielen und 30 Funktionen, für die ich mehrere Klassifikatoren für eine binäre Klassifizierung trainiere (SVM, Logistic Regression, Random Forest usw.). In vielen Fällen ist die Optimierung von Hyperparametern für den gesamten Datensatz mithilfe der Raster- oder Zufallssuche zeitlich zu kostspielig. Ich begann mit der …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.