Als «machine-learning» getaggte Fragen

Algorithmen für maschinelles Lernen erstellen ein Modell der Trainingsdaten. Der Begriff "maschinelles Lernen" ist vage definiert; Es umfasst das, was auch als statistisches Lernen, Bestärkungslernen, unbeaufsichtigtes Lernen usw. bezeichnet wird. Fügen Sie immer einen spezifischeren Tag hinzu.



3
Warum deutet die Lückenstatistik für k-means auf einen Cluster hin, obwohl es offensichtlich zwei davon gibt?
Ich verwende K-means, um meine Daten zu gruppieren, und suche nach einer Möglichkeit, eine "optimale" Clusternummer vorzuschlagen. Gap-Statistiken scheinen ein gängiger Weg zu sein, um eine gute Clusternummer zu finden. Aus irgendeinem Grund gibt es 1 als optimale Clusternummer zurück, aber wenn ich mir die Daten anschaue, ist es offensichtlich, …


2
Warum ist die Optimierung einer Gaußschen Mischung direkt rechnerisch schwierig?
Betrachten Sie die logarithmische Wahrscheinlichkeit einer Mischung von Gaußschen: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Ich habe mich gefragt, warum es rechenintensiv ist, diese Gleichung direkt zu maximieren. Ich suchte entweder nach einer klaren, soliden Vorstellung, warum es offensichtlich sein sollte, dass es schwierig ist, oder nach …

1
Inwiefern unterscheidet sich ein extrem zufälliger Wald von einem zufälligen Wald?
Ist die Umsetzung von ER effizienter (ähnlich Extreme Gradient Boostingwie die Steigerung des Gradienten) - ist der Unterschied aus praktischer Sicht wichtig? Es gibt ein R-Paket, das sie implementiert. Ist es ein neuer Algorithmus, der die "generische" Implementierung (RandomForest-Paket von R) nicht nur hinsichtlich der Effizienz oder auch in einigen …

2
Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]
Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …

2
Wie reduziert die lineare Diskriminanzanalyse die Dimensionen?
Es gibt Wörter aus "Die Elemente des statistischen Lernens" auf Seite 91: Die K-Schwerpunkte im p-dimensionalen Eingangsraum überspannen höchstens den K-1-dimensionalen Unterraum, und wenn p viel größer als K ist, ist dies ein beträchtlicher Dimensionsabfall. Ich habe zwei Fragen: Warum überspannen die K-Schwerpunkte im p-dimensionalen Eingaberaum höchstens den K-1-dimensionalen Unterraum? …

2
Deep Learning vs. Entscheidungsbäume und Methoden fördern
Ich suche nach Artikeln oder Texten, die vergleichen und diskutieren (entweder empirisch oder theoretisch): Boosting- und Entscheidungsbaum- Algorithmen wie Random Forests oder AdaBoost und GentleBoost werden auf Entscheidungsbäume angewendet. mit Deep Learning Methoden wie Restricted Boltzmann Machines , Hierarchical Temporal Memory , Convolutional Neural Networks , etc. Kennt jemand einen …

5
Textklassifizierung in großem Maßstab
Ich möchte meine Textdaten klassifizieren. Ich habe 300 classes200 Schulungsunterlagen pro Klasse (so 60000 documents in total) und dies wird wahrscheinlich zu sehr hohen Maßangaben führen (wir suchen möglicherweise nach mehr als 1 Million Dimensionen ). Ich möchte die folgenden Schritte in der Pipeline ausführen (um Ihnen einen Eindruck von …


3
Wie wirkt sich die Chargengröße auf die Konvergenz von SGD aus und warum?
Aus vielen Diskussionen habe ich ähnliche Schlussfolgerungen gezogen, dass die Konvergenz von SGD mit zunehmender Minibatch-Größe tatsächlich schwieriger / schlechter wird, zum Beispiel in diesem Artikel und in dieser Antwort . Ich habe auch von Leuten gehört, die im frühen Stadium Tricks wie kleine Lernraten oder Losgrößen einsetzten, um diese …

2
Sollten Trainingsmuster, die zufällig für Mini-Batch-Trainingsnetze gezogen wurden, ersatzlos gezogen werden?
Wir definieren eine Epoche, in der alle verfügbaren Trainingsmuster durchlaufen wurden, und die Mini-Batch-Größe als die Anzahl der Muster, über die wir den Durchschnitt bilden, um die Aktualisierungen der Gewichte / Vorspannungen zu finden, die zum Abstieg des Gradienten erforderlich sind. Meine Frage ist, ob wir aus den Trainingsbeispielen ersatzlos …


2
Anomalieerkennung mit Dummy-Funktionen (und anderen diskreten / kategorialen Funktionen)
tl; dr Was ist die empfohlene Methode zum Umgang mit discreteDaten bei der Erkennung von Anomalien? Was ist die empfohlene Methode zum Umgang mit categoricalDaten bei der Erkennung von Anomalien? Diese Antwort schlägt vor, diskrete Daten zu verwenden, um nur die Ergebnisse zu filtern. Vielleicht den Kategoriewert durch die prozentuale …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.