Statistiken für maschinelles Lernen, Papiere zum Starten?


10

Ich habe einen Hintergrund in Computerprogrammierung und elementarer Zahlentheorie, aber kein wirkliches Statistik-Training und habe kürzlich "entdeckt", dass die erstaunliche Welt einer ganzen Reihe von Techniken tatsächlich eine statistische Welt ist. Es scheint, dass Matrixfaktorisierungen, Matrixvervollständigung, hochdimensionale Tensoren, Einbettungen, Dichteschätzung, Bayes'sche Inferenz, Markov-Partitionen, Eigenvektorberechnung und PageRank hochgradig statistische Techniken sind und dass die Algorithmen für maschinelles Lernen, die solche Dinge verwenden, viele Statistiken verwenden .

Mein Ziel ist es, Artikel zu lesen, in denen solche Dinge diskutiert werden, und die Algorithmen zu implementieren oder zu erstellen, während ich die verwendete Notation, "Beweise" und statistische Argumente verstehe. Ich denke, das Schwierigste ist, allen Beweisen zu folgen, die Matrizen beinhalten.

Mit welchen grundlegenden Papieren kann ich anfangen? Oder ein gutes Lehrbuch mit Übungen, die es wert sind, durchgearbeitet zu werden?

Einige Papiere, die ich vollständig verstehen möchte, sind:

  1. Genaue Matrixvervollständigung durch konvexe Optimierung, Candes, Recht, 2008
  2. Die schnelle Cauchy-Transformation und schnellere robuste lineare Regression, Clarkson et al., 2013
  3. Zufällige Projektionen für Support Vector Machines, Paul et al., 2013
  4. Hochdimensionale Wahrscheinlichkeitsschätzung mit Deep-Density-Modellen, Rippel, Adams, 2013
  5. Erhalten fehlerminimierender Schätzungen und universeller eintragsbedingter Fehlergrenzen für die Vervollständigung einer Matrix mit niedrigem Rang, Király, Theran, 2013

1
Kennen Sie Matrizen bereits, z. B. durch einen Kurs für angewandte lineare Algebra, oder ist dies ein Teil dessen, was Sie lernen möchten? Ich würde sagen, dass die erste Hälfte der Liste, die Sie gegeben haben, Themen sind, die für die Statistik wichtig sind, und nicht für hochstatistische Techniken (was mir als entgegengesetzt erscheint). Hier gibt es mehrere Fragen zu empfohlenen Büchern zum Erlernen des statistischen maschinellen Lernens. Ich würde vorschlagen, dass Sie ein oder zwei Beispiele für bestimmte Artikel angeben, die Sie verstehen möchten. Dadurch können Sie die Antworten, die Sie erhalten, besser fokussieren.
Kardinal

2
Ja, ich kenne mich mit Matrizen durch lineare Algebra und mit Konzepten von Vektorraum, Basis und Normen aus, aber ich verstehe Dinge wie die LU-Faktorisierung nicht vollständig, obwohl mir die Gram-Schmidt-Orthogonalisierung und der nicht optimierte QR-Algorithmus ziemlich klar sind nicht ganz klar, warum sie funktionieren. Ich verstehe auch nicht, wie Leute die Eigenvektoren für eine Zufallsmatrix ableiten können , ohne einen Eigenvektoralgorithmus darauf auszuführen.
Cris Stringfellow

Antworten:


2

Ich würde den maschinellen Lernkurs von Andrew Ngs auf Coursera empfehlen. Er bietet eine hervorragende Abdeckung aller Grundlagen. Wenn Sie etwas studieren, das mit probabilistischen grafischen Modellen zu tun hat, ist der Daphne Kollers-Kurs auch gut geeignet.

Dies ist auch eine Fundgrube für Ressourcen zum Selbststudium. Http://ragle.sanukcode.net/articles/machine-learning-self-study-resources/ Herb Grossmans Vorträge sind fantastisch.

Mir wurde auch dieses Buch https://www.openintro.org/stat/textbook.php empfohlen, da ich immer noch selbst lerne und Statistiken nicht mein Hintergrund sind!

Meine zwei Cent sind die mathematische Seite von Dingen und Papieren, aber ich bin nicht zu sehr mit der Hintergrundmathematik beschäftigt. Lernen Sie die Grundlagen und beziehen Sie sich auf die Papiere, auf denen die von Ihnen erwähnten Papiere aufgebaut sind, und sehen Sie, ob sie einfacher sind (vielleicht müssen Sie ein paar Papiere zurückgehen, um etwas zu bekommen, das Sie verstehen können - es ist das, was ich selbst mache). Es gibt viele verschiedene Elemente der Mathematik in ML und es ist leicht, in ein Kaninchenloch gesaugt zu werden (wieder etwas, das ich selbst mehr als einmal gemacht habe!).

Viel Glück, es ist ein wirklich interessantes Feld!

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.