Was sind die „heißen Algorithmen“ für maschinelles Lernen?


14

Dies ist eine naive Frage von jemandem, der anfängt, maschinelles Lernen zu lernen. Ich lese in diesen Tagen das Buch "Maschinelles Lernen: Eine algorithmische Perspektive" von Marsland. Ich finde es nützlich als Einführungsbuch, aber jetzt möchte ich auf fortgeschrittene Algorithmen eingehen, die derzeit die besten Ergebnisse liefern. Ich interessiere mich hauptsächlich für Bioinformatik: Clustering von biologischen Netzwerken und Auffinden von Mustern in biologischen Sequenzen, insbesondere für die Analyse von Einzelnukleotid-Polymorphismen (SNP). Könnten Sie mir einige Rezensionen oder Bücher zum Lesen empfehlen?

Antworten:


15

Deep Learning hat seit 2006 einen hohen Stellenwert. Es ist im Grunde ein Ansatz, tiefe neuronale Netze zu trainieren, und führt zu wirklich beeindruckenden Ergebnissen bei sehr harten Datensätzen (wie Dokument-Clustering oder Objekterkennung). Einige sprechen von der zweiten Renaissance des neuronalen Netzwerks (z. B. in diesem Google Talk von Schmidhuber).

Wenn Sie beeindruckt sein möchten, sollten Sie sich dieses Wissenschaftspapier ansehen, das die Dimensionalität von Daten mit neuronalen Netzen , Hinton & Salakhutdinov , reduziert.

(In diesem Bereich ist derzeit so viel Arbeit im Gange, dass es nur zwei Bücher gibt, von denen ich weiß, dass sie es behandeln werden: Maschinelles Lernen in großem Maßstab , Langford et al. Und Maschinelles Lernen: eine probabilistische Perspektive von Kevin Murphy.)

Wenn Sie mehr wissen möchten, schauen Sie sich an, was die wichtigsten Deep-Learning-Gruppen tun: Stanford , Montreal und vor allem Toronto # 1 und Toronto # 2 .


8

Die meisten der bisher gegebenen Antworten beziehen sich auf "Betreutes Lernen" (dh Sie haben Beschriftungen für einen Teil Ihres Datensatzes, mit denen Sie Algorithmen trainieren können). Die Frage speziell erwähnt Clustering, die ein "unbeaufsichtigter" Ansatz ist (dh, keine Etiketten sind im Voraus bekannt). In diesem Szenario würde ich Folgendes vorschlagen:

  • k-means und kernel k-means
  • Agglomeratives Clustering
  • Nicht negative Matrixfaktorisierung
  • Latente Dirichlet-Zuordnung
  • Dirichlet-Prozesse und hierarchische Dirichlet-Prozesse

Aber tatsächlich werden Sie wahrscheinlich feststellen, dass Ihr Ähnlichkeits- / Entfernungsmaß wichtiger ist als der von Ihnen verwendete Algorithmus.

Wenn Sie über etikettierte Daten verfügen, gewinnen die Ansätze des "halbüberwachten Lernens" an Popularität und können sehr leistungsfähig sein. Ein guter Ausgangspunkt für SSL ist die LapSVM (Laplacian Support Vector Machine).


7

Dies sind Bücher, die hilfreich sein könnten:

  • Einführung in Data Mining von Pang-Ning Tan, Michael Steinbach und Vipin Kumar. Dies war das vorgeschlagene Buch während meiner Data Mining-Kurse an der Universität. Ich mag das Layout und den theoretischen Ansatz;
  • Data Mining: Praktische Tools und Techniken für maschinelles Lernen von Ian H. Witten, Eibe Frank und Mark A. Hall. Ein sehr interessantes Buch. Dieses Buch behandelt auch viele mit dem Data Mining Framework WEKA implementierte Techniken .
  • Maschinelles Lernen von Thomas Mitchell. Es ist ein bisschen altes Buch, aber es kann nützlich sein.

Dann denken Sie daran, dass Sie kostenlose Kurse für maschinelles Lernen bei Stanford besuchen können, die gerade erst begonnen haben: www.ml-class.com .

Und für Ihr spezielles Problem, nämlich die SNP-Analyse, würde ich vorschlagen, einen Blick auf die Gruppe von Di Camillo an der Universität von Padua zu werfen .


5

Hier finden Sie einen großartigen Artikel und ein Buch, in dem die Grundlagen, die Theorie und die Anwendung der meisten der beliebtesten Methoden erläutert werden:

Top 10 Algorithmen im Data Mining

Es ist besonders hübsch, weil es eine "Top 10" ist, die von Experten auf diesem Gebiet ausgewählt wurde.

Auch für Gendaten im Allgemeinen ist die Merkmalsauswahl aufgrund der vielen Merkmale von enormer Bedeutung. Zum Beispiel sind SVM-RFE (SVM Recursive Feature Elimination) und verwandte Methoden sehr beliebt und werden im Kontext von Gendaten aktiv entwickelt und angewendet.


4

Aufgestockte Bäume und irgendeine Form von SVM gewinnen viele Wettbewerbe, aber es kommt immer auf den Kontext an. Auch die Regularisierung der Mannigfaltigkeit ist auf dem neuesten Stand.


4

Ich empfehle "The Elements of Statistical Learning" von Hastie, Tibshirani und Friedman. Lesen Sie es nicht nur, spielen Sie mit einigen von ihnen beschriebenen Algorithmen (die meisten sind in R implementiert, oder Sie können sogar selbst einige implementieren) und lernen Sie deren Schwachpunkte und Stärken.



3

Gaußsche Prozesse für maschinelles Lernen von Rasmussen und Williams (MIT Press) sind ein Muss. Gaußsche Prozesse sind einer der wichtigsten Algorithmen für maschinelles Lernen, da jetzt Algorithmen für die Propagierung von Erwartungen und für die Variationsinferenz verfügbar sind. Das Buch ist sehr gut geschrieben, verfügt über eine kostenlose MATLAB-Toolbox (gutes Kit) und kann kostenlos heruntergeladen werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.