Was bedeutet es, eine mehrdimensionale Verarbeitung mit Tensoren in Tensorkernen durchzuführen?

In einigen Tweets zu NeurIPS 2018 erschien dieses Video von NVIDIA. Gegen 0,37 sagt sie:

Wenn Sie über die aktuellen Berechnungen in unseren Deep-Learning-Systemen nachdenken, basieren alle auf linearer Algebra. Können wir bessere Paradigmen für die mehrdimensionale Verarbeitung finden? Können wir wirklich tensoralgebraische Techniken in unseren Tensorkernen anwenden?

Ich habe mich gefragt, wovon sie spricht. Ich bin kein Experte, daher möchte ich diesen speziellen Punkt besser verstehen.

— falscher Weg
quelle

Sowohl PR als auch theoretisch gültig

Obwohl Anima Anandkumars Präsentation ein Puffstück für NVidia ist, widerspricht ihre Darstellung nicht der Theorie.

... nächste Stufe [über dem GPU-Erfolg von NVidia] ... bedeutet neue algorithmische Forschung. Wenn Sie also über die aktuellen Berechnungen in unseren Deep-Learning-Systemen nachdenken, basieren sie alle auf linearer Algebra. Können wir bessere Paradigmen für die mehrdimensionale Verarbeitung finden? Können wir wirklich tensoralgebraische Techniken in unseren Tensorkernen anwenden, und welche neuen Architekturen werden dadurch realisiert?

Tensoren

Ein Tensor ist die Erweiterung der Idee von Funktionen und Vektoren. Die entstandenen Vektoren ermöglichen die Einkapselung mehrerer Variablen desselben Typs in eine einzige Einheit, um mehrdimensionale Eigenschaften wie Position oder Kraft auszudrücken. Variablen, die keine Kapselung mehrerer Variablen sind, werden dann als Skalare bezeichnet. Wenn solche mehrdimensionalen Eigenschaften eher Zusammensetzungen von Funktionen als Variablen sind, weil ihre Werte von anderen Variablen abhängen, sind sie Vektorfelder.

Um Elektromagnetismus und Schwerkraft in der Mathematik sauberer zu modellieren, waren höhere Ebenen der variablen und funktionellen Einkapselung erforderlich. Skalare Variablen und Funktionen, die skalare Variablen zurückgeben, sind somit Tensoren des ersten Ranges (1). Vektoren und Vektorfelder sind Tensoren mit Rang zwei (2), und höhere Ränge sind Erweiterungen des durch Skalare und Vektoren erzeugten Musters. Eine Matrix, die Funktionen enthält, kann als Tensor mit Rang drei (3) dargestellt werden, wobei ihre Elemente in einer einzigen Einheit zusammengefasst werden.

Trend zur digitalen Verarbeitung und Integration

CUDA-Kerne, die Signalverarbeitungseinheiten, die in NVidia-GPUs der aktuellen Generation (grafische Verarbeitungseinheiten) verwendet werden, können zur Erzeugung von zwei- oder dreidimensionalem Rendering verwendet oder zur Erzeugung einer parallelen Verarbeitung von Signalen über ein künstliches Netzwerk genutzt werden. Dies folgt dem Trend, die wichtigsten Engpässe bei der Ausführung von Algorithmen an digitale Schaltkreise zu delegieren. Die VLSI-Technologie (Very Large Scale Integration) ist das logische Ergebnis dieses Trends.

Industrielle und militärische Taschenrechner mit Tests und Verzweigungen, die auf Reihen von Relaisreihen laufen
Fügen Sie Geschwindigkeit mit Röhren hinzu und laden Sie Programme mit Lochkarten
Reduzieren Sie die Leistung und verbessern Sie die Zuverlässigkeit und Geschwindigkeit mit Transistoren, Magnetkernspeicher und Papierband
Integrierte Schaltkreise auf Motherboards mit Vinylband
Handprogrammierbare Taschenrechner für Schüler
Mikroprozessoren mit Magnetplatten
Gleitkomma-, digitale Signal- und Grafikprozessoren zur Erweiterung von Mikroprozessoren
Mehrere Kerne (Wiederholung von Schaltungsmustern in großem Maßstab auf einem einzelnen Substrat)
Neuausrichtung und Erweiterung von Grafik-Rendering-Schaltkreisen, um künstliche Netzwerkberechnungen auf GPUs zu verlagern

Bei alledem sind Geschwindigkeit, Größe, Energieeinsparung und Bequemlichkeit kein wirklicher Wechsel des ursprünglichen Paradigmas, das mit Norbert Wiener, Claude Shannon, Alan Turing, John von Neumann und anderen begann. Tatsächlich holt das Rechnen die Perspektiven dieser Pioniere in mehrfacher Hinsicht ein und ist weit davon entfernt, in VLSI gemeinsame Konzepte in der Wissenschaft zu entwickeln. Software ist die Lösung, weshalb sie als weich bezeichnet wird, was bedeutet, dass sie flexibel und nicht unbedingt schwach ist. Flexibilität beeinträchtigt jedoch Geschwindigkeit und Leistungsfähigkeit, daher der obige Trend.

Die Herausforderung des parallelen Rechnens

Anima Anandkumar erklärt unter anderem, dass die Signalpfade in aktuellen VLSI-Prozessoren immer noch eine viel niedrigere Abstraktionsebene aufweisen als die Ideen von Mathematikern, Physikern und KI-Ingenieuren. Die wissenschaftliche Theorie beschreibt Wahrscheinlichkeit, statistische Verteilung, Erwartung, Kraft, Verlust, Gewinn, Schmerz, Belohnung, Gedächtnis, Impuls, Semantik, Kombination und Korrelation auf einem viel höheren Niveau als die derzeitige digitale Schaltung.

Die Verwendung von sequentiellen Algorithmen ist das zeitliche Ausspalten einer möglicherweise massiv parallelen Operation. Der serielle Algorithmus begrenzt die Verarbeitungsrate. Das Finden von Wegen, um in der Mathematik parallel mit Dingen umzugehen, kann mit einem Bleistift erfolgen. In Computern ist das Parallelisieren von Algorithmen und das Auffinden von Parallelverarbeitungsstrukturen in VLSI-Form, die in mancher Hinsicht so flexibel wie Software sind, viel schwieriger und liegt damit weit zurück.

Dies ist ein Problem, das seit einem halben Jahrhundert in mindestens zwanzig großen Unternehmens- und Regierungslabors im Mittelpunkt der Forschung stand und von Anfang an von VLSI beabsichtigt wurde. Die Arbeit ist nicht spezifisch für NVidia. Es ist kein neues Problem, und der Lösungsansatz folgt diesem Paradigma.

Fügen Sie dem Geist Abstraktion und Kapselung hinzu.
Drücken Sie es in Mathematik aus.
Schreiben Sie es als seriellen Algorithmus und nutzen Sie alle parallelen Konstrukte, die von Programmiersprachen und Bibliotheken unterstützt werden, die die VLSI-Parallelität nutzen oder Cluster berechnen können.

In den letzten siebzig Jahren der Entwicklung von Rechenmaschinen wurden Hardware, Betriebssysteme und Software näher an das Niveau mathematischer Ausdrücke gebracht, die zwanzig bis zweihundert Jahre alt waren. Das kann sich ändern und jeder möchte die neue Welle reiten.

Anima Anandkumar und ihre Kollegen bei IBM, Intel, Google, Microsoft, der US Navy, Amazon, Alibaba und den anderen Unternehmens- und Regierungslabors geben nicht an (weil es entweder klassifiziert oder vertraulich ist), was sie zur Förderung des Unternehmens beabsichtigen Parallelisierung des Rechnens. Was auch immer sie in dieser Richtung tun, wäre kein Paradigmenwechsel, sondern ein nächster Schritt entlang des aktuellen Paradigmas.

Tritt in die Unternehmensstrategie ein

Sie würden auch nicht angeben, was sie tun könnten, was nicht in diesem Paradigma liegt. Sie sind gezwungen, nur Hinweise ohne theoretische Substanz zu geben. Wenn sie an einem Chip arbeiten würden, der zeigt, was das menschliche Gehirn zeigt, wenn Neuronen wachsen und sich gemäß der DNA-basierten Neigung verbinden, würden sie das nicht auf technisch präzise Weise sagen. Das Unternehmensgeheimnis ist Teil des globalen Wirtschaftsspiels und kein Trinkgeld. Sie haben ihr Spielgesicht an.

Die Idee, von linear zu nichtlinear zu wechseln, ist ein gutes PR-Thema und bei Verwendung für Puffstücke nicht abschließend technisch. Die Tonhöhe verläuft normalerweise entlang dieser Linie.

Was sie taten, war sehr linear. Wir bewegen uns in einen nichtlinearen Raum.

Es ist ein Versuch zu behaupten, dass das, was getan wurde, primitiv war und der bevorstehende bahnbrechende Fortschritt vom Sprecher und seinen Leuten kommt. Manchmal führt dies zu einer vorübergehenden Wertsteigerung handelbarer Wertpapiere, die das Unternehmen zum jetzigen Zeitpunkt benötigt. Wenn es eine echte Änderung im Spiel gibt, wird es bekannt sein, wenn es veröffentlicht wird. Diejenigen, die jahrelang in Labors gearbeitet haben, müssen warten, bis etwas veröffentlicht wird, das zeigt, wann der Beispielcode konfiguriert und ausgeführt wird, welche Spieländerung tatsächlich stattgefunden hat, falls vorhanden. Oder sie entwickeln den Game Changer selbst, weshalb es sich um ein Labor handelt.

Mehrdeutigkeit von 'linear' auch in der Mathematik

Beachten Sie auch, dass gekrümmte Linien immer noch Linien sind und der Begriff linear je nach Kontext zwei Bedeutungen haben kann.

Entspricht der linearen Gleichung $\vec{Y} = V \vec{X}$ , so dass es als Linie, Ebene oder höherdimensionale flache Oberfläche mit konstantem Gradienten und ohne Krümmung grafisch dargestellt wird.
Entspricht den Prinzipien der linearen Algebra, zu denen Räume, Eigenwerte, Regression mit Polynomen höherer Ordnung und eine Reihe von Konstrukten gehören, die unterschiedliche Gradienten und Krümmungen beinhalten.

Vorhersage von Paradigmenwechseln

Die Skepsis, die sich nach längerer Beobachtung der PR des Technologieunternehmens entwickelt hat, lässt nicht unbedingt die bahnbrechenden technologischen Fortschritte der Vergangenheit und die Potenziale der Zukunft außer Acht. Jedes Open-Source-Projektteam, jede Einzelperson, jedes Unternehmen oder jedes Regierungslabor kann etwas tun, das das Paradigma ändert, normalerweise über einen Zeitraum von Jahren. Klassische Beispiele:

Seil
Rad
$F = m a$
Sauerstoff (diese Luft ist kein Element)
Elektromagnetismus
Wechselstrom-Energieübertragung
Relativität
Verbrennungs
Radio

Rechenbeispiele:

Informationstheorie
Kybernetik
Erster Transistor
LISP und FORTRAN
C und UNIX
TCP / IP

Schichten müssen nicht so weitreichend und spielverändernd sein, um Auswirkungen zu haben. Wer in Bezug auf KI-Konzepte, Informationsstruktur, Algorithmus und Ausführungsumgebung das nächste Ziel erreicht, ist nicht leicht vorherzusagen. Betrachten Sie diejenigen, die vor den oben genannten gelebt haben, und versuchen Sie sich vorzustellen, dass sie versuchen, die Projekte von Isaac Newton, Antoine Lavoisier, Michael Faraday, Nicola Tesla, Norbert Wiener, Claude Shannon, Ken Thompson, Dennis Ritchie oder einem der anderen vorherzusagen waren die Keime des nächsten Paradigmenwechsels.

Es werden Forschungen zu analogen künstlichen Netzwerken, neuromorpher Hardware, semantischer Modellierung, Graphalgorithmen und anderen potenziellen Game Changer durchgeführt, die jeweils beeindruckende konzeptionelle Grundlagen haben und in einigen Fragen und Antworten hier erörtert werden. Dies sind einige.

Was davon auf die Anfänge des Paradigmenwechsels hindeuten kann, kann nicht bekannt sein, und selbst wenn eine Idee, die zuerst hier veröffentlicht oder von hier aus referenziert wird, der Keim ist, ist sie möglicherweise später nicht bekannt. Das mehrschichtige Perzeptron mag der Keim für zukünftige Straßen und Autobahnen sein, die 2090 von automatisierten Fahrzeugen dominiert werden, aber niemand von einer Million Menschen wird in siebzig Jahren erkennen, dass der Trend zur AV-Forschung vom MLP-Enthusiasmus ab dem ersten Jahrzehnt dieses Jahrhunderts geprägt war .

Lücken müssen geschlossen werden und NVidia ist ein Contendere

Abgesehen davon verwenden wir jeden Tag NVidia-Hardware für Robotik und Analyse, damit sie aufgrund des bisherigen Erfolgs glaubwürdig sind. Wenn sie einen Chip produzieren würden, der vor Intel oder der IBM-MIT-Zusammenarbeit etwas bemerkenswert Kluges leistet, wäre dies eine kleine Überraschung, aber nicht eine völlig unglaubliche Möglichkeit. Sicherlich ist das Verständnis von Hilbert-Räumen, -Semantik und -Topologie im Bereich der Informatik begrenzt, und ein Paradigmenwechsel hin zu einem besseren Verständnis von ihnen oder einer neuen Sache, die heute nicht einmal Teil des mathematischen Denkens ist, würde der Computerindustrie die notwendige Vielfalt hinzufügen .

— Douglas Daseeco
quelle