Es gibt definitiv eine Möglichkeit, das, was viele als verstärktes Lernen bezeichnen, in echte Web-, Mobil- und Workstation-Anwendungen einzuführen.
Militärische Organisationen tun es, die Filmindustrie tut es, Software-zentrierte Unternehmen tun es, und ich habe es für Fortune 500-Unternehmen und kleine Unternehmen gleichermaßen getan. Es gibt adaptive Lernkomponenten in allen Arten von Systemkomponenten, die in größere Systeme eingebettet sind, von FaceBook-Gesichtserkennungsrobotern über Google Translate, USPS-Postleitzahlerkennungssystemen bis hin zu autonomen Flug- und Verkehrskontrollsystemen. Computer Aided Design Software (CAD) ist sicherlich ein brauchbares Ziel.
Die Basis für die Verstärkung
Betrachten Sie eine Reihe von Vektoren, die Ereignisse beschreiben. Stellen Sie sich vor, sie sind in zwei Unterserien A und B unterteilt. Ein neuronales Netz (künstlich oder biologisch) könnte mit A trainiert werden.
Das Training könnte überwacht werden, was bedeutet, dass eine der Dimensionen des Vektors als Label und daher als abhängige Variable betrachtet wird, um eine optimale Vorhersage zu ermöglichen. Die anderen Dimensionen werden dann zu Fakten oder Eingangssignalen und damit zu unabhängigen Variablen, die für die Vorhersage verwendet werden. Das Training kann mithilfe der Funktionsextraktion unbeaufsichtigt bleiben.
In beiden Fällen stellt das spätere Eintreffen von B eine Wahl dar, wenn A vor B bereitgestellt wird und erwartet wird, dass es in der Produktion (reale Verwendung) vor dem Eintreffen von B ausgeführt wird.
- Löschen Sie die Gewichte und alle während des Trainings durchgeführten Meta-Parameter-Anpassungen mit A und führen Sie das Training mit der verketteten Reihe von A und B erneut aus.
- Setzen Sie das Training mit B fort. In diesem Fall würde das Netzwerk mit A verzerrt und das Ergebnis würde sich von dem Ergebnis unterscheiden, das durch das Training mit B und dann mit A erzielt wird.
- Finden Sie einen Weg, die Tendenz zu begrenzen, zuerst mit A trainiert zu haben, während Sie den Ressourcenverbrauch vermeiden, der für die obige Wahl 1 erforderlich ist.
Wahl 3 ist in vielen Fällen die beste Wahl, da sie die Vorteile der Wahl 1 und 2 bietet. Mathematisch gesehen wird # 3 dadurch erreicht, dass das, was aus der Serie A gelernt wurde, auf irgendeine Weise voreingestellt wird. Die neuronalen Nettogewichte und Metaparameteranpassungen müssen korrigierbar gemacht werden, da neue Erfahrungen dies erfordern. Ein naiver Ansatz kann mathematisch formuliert werden: die inverse Exponentialfunktion, die den natürlichen Zerfall in vielen Phänomenen der Physik, Chemie und Sozialwissenschaften modelliert.
P = e -nt , wobei P die Wahrscheinlichkeit ist, dass die Tatsache noch wirksam ist, n die Abklingrate der in der Vergangenheit gelernten Informationen ist und t ein Maß für den Fortschritt in der Zukunft ist , wie Zeitstempel, Teilsequenz (Chargennummer), Faktensequenznummer oder Ereignisnummer.
Wenn im Fall der Teilreihen A und B die obige Formel auf irgendeine Weise in den Lernmechanismus implementiert ist, wird das Training von A nach dem fortgesetzten Training mit B weniger Verzerrung auf das Endergebnis ausüben, da das t für A geringer ist als das t für B, was den Mechanismus sagt, dass B wahrscheinlich relevanter ist.
Wenn wir A und B rekursiv in zwei Hälften teilen und so immer mehr Teilreihen erzeugen, bleibt die obige Idee, frühere Informationen allmählich abbauen zu lassen, sowohl gültig als auch wertvoll. Die Ausrichtung des Netzwerks auf die ersten Informationen, die für das Training verwendet werden, entspricht den psychologischen Konzepten der Engstirnigkeit. Lernsysteme, die sich zum Gehirn von Säugetieren entwickelt haben, scheinen das Interesse an früheren Dingen zu vergessen oder zu verlieren, um die Aufgeschlossenheit zu fördern. Dies ist nichts anderes als zuzulassen, dass neues Lernen manchmal das vorherige Lernen verhindert, wenn die neuen Informationen stärkere Lernmuster enthalten.
Es gibt ZWEI Gründe dafür, dass neuere Beispieldaten ältere Beispieldaten nach und nach überwiegen.
- Die obige Beseitigung der Verzerrung des früheren Lernens, um neuere Ereignisse beim weiteren Lernen angemessen abzuwägen, ist sinnvoll, wenn alle erlebten (trainierten) Ereignisse vernünftige Tatsachen über die Außenwelt darstellen, die das System zu lernen versucht.
- Die Außenwelt kann sich verändern und das ältere Lernen kann tatsächlich irrelevant oder sogar irreführend werden.
Das Erfordernis, die Bedeutung früherer Informationen mit fortschreitendem Lernen allmählich abbauen zu lassen, ist einer der beiden Hauptaspekte der Verstärkung. Der zweite Aspekt ist eine Reihe von Korrekturkonzepten, die auf der Idee der Rückkopplungssignalisierung aufbauen.
Feedback und Verstärkung
Ein Feedbacksignal beim verstärkten Lernen ist das maschinelle Lernen, das bekannten psychologischen Konzepten wie Schmerz, Vergnügen, Zufriedenheit und Wohlbefinden entspricht. Das Lernsystem erhält Informationen, die das Training über das Ziel der Merkmalsextraktion, der Unabhängigkeit von Gruppierungen oder der Ermittlung einer neuronalen Nettogewichtsmatrix hinaus leiten, die die Beziehung zwischen Eingabeereignismerkmalen und ihren Bezeichnungen approximiert.
Die bereitgestellten Informationen können intern von vorprogrammierter Mustererkennung oder extern von Belohnung und Bestrafung stammen, wie dies bei Säugetieren der Fall ist. Die Techniken und Algorithmen, die beim verstärkten maschinellen Lernen entwickelt werden, verwenden diese zusätzlichen Signale häufig (unter Verwendung von Zeitscheiben in der Verarbeitung) oder kontinuierlich unter Verwendung der Unabhängigkeit von Verarbeitungseinheiten von Parallelverarbeitungsarchitekturen.
Diese Arbeit wurde am MIT von Norbert Wiener ins Leben gerufen und in seinem Buch Kybernetik (MIT Press 1948) beschrieben. Das Wort Kybernetik kommt von einem älteren Wort, das Schiffssteuerung bedeutet . Die automatische Bewegung eines Ruders, um auf Kurs zu bleiben, könnte das erste mechanische Rückkopplungssystem gewesen sein. Ihr Rasenmähermotor hat wahrscheinlich einen.
Adaptive Anwendungen und Lernen
Eine einfache Anpassung in Echtzeit für eine Ruderposition oder eine Rasenmäher-Drosselklappe lernt nicht. Eine solche Anpassung ist normalerweise eine Form der linearen PID-Regelung. Die Technologie des maschinellen Lernens, die heute erweitert wird, umfasst die Bewertung und Steuerung komplexer, nichtlinearer Systeme, die Mathematiker als chaotisch bezeichnen.
Chaotisch bedeutet das nicht, dass die beschriebenen Prozesse in Raserei sind oder durcheinander geraten. Die Chaotiker haben vor Jahrzehnten entdeckt, dass einfache nichtlineare Gleichungen zu hoch organisiertem Verhalten führen können. Was sie bedeuten, ist, dass das Phänomen zu empfindlich für geringfügige Änderungen ist, um einen festen Algorithmus oder eine feste Formel zu finden, um sie vorherzusagen.
Sprache ist so. Dieselbe Aussage, die mit einem Dutzend verschiedener Stimmbeugungen getroffen wurde, kann ein Dutzend verschiedener Dinge bedeuten. Der englische Satz "Really" ist ein Beispiel. Es ist wahrscheinlich, dass Verstärkungstechniken es zukünftigen Maschinen ermöglichen werden, mit hoher Erfolgswahrscheinlichkeit zwischen den verschiedenen Bedeutungen dieser Aussage zu unterscheiden.
Warum zuerst spielen?
Spiele haben eine sehr einfache und leicht zu definierende Reihe möglicher Szenarien. Einer der Hauptverantwortlichen für das Aufkommen des Computers, John von Neumann, argumentierte in Theory of Games and Economic Behavior , einem Buch, das er gemeinsam mit Oskar Morgenstern verfasste, dass alles Planen und Treffen von Entscheidungen tatsächlich das Spielen verschiedener Komplexitäten ist.
Betrachten Sie Spiele als Übungsbeispiel der Sammlung von Gehirnen, die mit der Zeit Systeme schaffen, die die Bedeutung einer Aussage bestimmen können, wie es gebildete Menschen aus drei Quellen von Hinweisen können.
- Kontext innerhalb einer Unterhaltung oder eines sozialen Szenarios
- Die Stimmbeugungen des Sprechers
- Die Mimik und Körpersprache des Sprechers
Jenseits von Schach und Go
Auf dem Weg von Spielen zu Sprachsystemen mit genauem Verständnis und tieferen Hörfähigkeiten gibt es verschiedene Anwendungen des verstärkten Lernens, die für die Erde und die menschliche Erfahrung von größerer Bedeutung sind.
- Systeme, die lernen, wie man Lichter, Geräte, digitale Systeme, HLK und andere energieverbrauchende Geräte abschaltet oder dämpft.
- Autonome Fahrzeugentwicklung - Der gefährliche Trend des Betriebs schwerer Geräte wie Flugzeuge, Wohnmobile, LKWs, Busse und Sattelzugmaschinen durch Personen mit unbekannten Einstellungen auf offenen Straßen wird von zukünftigen Personen wahrscheinlich als Wahnsinn betrachtet.
- Bewertung der Zuverlässigkeit von Informationen - Informationen sind überall und zu über 99% teilweise oder vollständig fehlerhaft. Sehr wenig wird durch echte Forschung bestätigt, entweder durch korrekt entworfene und interpretierte doppelblinde randomisierte Studien oder durch bestätigbare Labortests und -analysen.
- Anwendungen für das Gesundheitswesen, die eine bessere Diagnose ermöglichen, die Maßnahmen auf den Einzelnen zuschneiden und bei der fortgesetzten Pflege helfen, ein Wiederauftreten zu verhindern.
Diese vier und viele andere sind weitaus wichtiger als die Anhäufung von Vermögen durch automatisiertes Hochgeschwindigkeits-Trading oder das Gewinnen von Spielwettbewerben, zwei selbstbezogene maschinelle Lerninteressen, die sich lediglich auf eine oder zwei Generationen der Familie einer einzelnen Person auswirken.
Reichtum und Ruhm sind das, was in der Spieltheorie als Nullsummenspiel bezeichnet wird . Sie verursachen so viele Verluste wie es Gewinne gibt, wenn Sie die Philosophie der höheren goldenen Regel berücksichtigen, dass andere und ihre Familien für uns von gleicher Bedeutung sind.
Verstärktes Lernen für CAD-Software (Computer Aided Design)
Computer Aided Design ist der natürliche Vorläufer des Computerdesigns (ohne menschliche Hilfe), so wie Antiblockiersysteme auf natürliche Weise zu völlig autonomen Fahrzeugen führen.
Betrachten Sie den Befehl "Erstellen Sie mir eine Seifenschale für meine Dusche, die die Wahrscheinlichkeit maximiert, dass meine Familie beim ersten Versuch nach der Seife greifen kann, ohne die Augen zu öffnen, und die Schwierigkeit minimiert, die Seife und die Duschflächen sauber zu halten meine Familienmitglieder und ein paar Bilder vom Duschraum. " Anschließend wird das Gerät von einem 3D-Drucker zusammen mit den Installationsanweisungen zum Anschließen geöffnet.
Natürlich müsste ein solches CD-System (CAD ohne das A) in Bezug auf die Haushaltsführung, menschliches Verhalten ohne Vision, Möglichkeiten zum Anbringen von Gegenständen an Fliesen, Werkzeuge und Wartungsmöglichkeiten für den Durchschnittsverbraucher sowie die Funktionen des 3D-Druckers geschult werden und einige andere Dinge.
Solche Entwicklungen in der Fertigungsautomatisierung beginnen wahrscheinlich mit dem verstärkten Erlernen einfacherer Befehle wie "Befestigen Sie diese beiden Teile mit in Serie gefertigten Verbindungselementen und bewährten Methoden." Das CAD-Programm wählte dann Hardware aus Schrauben, Nieten, Klebstoffen und anderen Optionen aus und stellte dem Konstrukteur möglicherweise Fragen zu Betriebstemperatur und Vibrationsbereichen. Die Auswahl, Position und der Winkel werden dann zu dem entsprechenden Satz von CAD-Teilen und Baugruppenzeichnungen und Stücklisten hinzugefügt.