Noch keine allgemeine Filmsuche
Es gab Erfolge beim Erkennen einer sehr engen Folge einer sehr engen Reihe möglicher Aktionen, aber nichts wie ein allgemeines Filmsuchsystem, das eine Reihe von Übereinstimmungen mit der Startzeit, der Endzeit und der Filminstanz für jede Übereinstimmung zu einer zurückgeben kann der in dieser Frage aufgeführten Suchkriterien.
- Jemand fuhr ein Auto
- Küssen
- Essen
- erschrocken
- Telefonieren
Liste normalisieren
Zuallererst ist "hatte Angst" nicht die Beschreibung einer Handlung. Es sollte sein: "Angst bekommen." Zweitens ist "Telefonieren" keine richtige Aktionsbeschreibung. Es sollte eine konjunktive Aktion sein, wie "In ein Telefon sprechen UND dasselbe Telefon hören". Um die Liste im Format homogen zu gestalten, sollte der erste Punkt "Autofahren" sein, da der Schauspieler in jedem anderen Fall ein Mensch ist.
- Autofahren
- Küssen
- Essen
- Angst bekommen
- In ein Telefon sprechen und dasselbe Telefon hören.
Realistische Erwartungen an das Systemdesign
Es ist unrealistisch zu glauben, dass ein künstliches neuronales Netz für sich trainiert werden kann, um als Ausgabe den Satz von Start- und Stoppbereichen und zugehörigen Filminstanzen aus einer Datenbank von Filmen und einem der oben genannten Listenelemente als Eingabe zurückzugeben. Dies erfordert ein komplexes System mit vielen ANNs und anderen ML-Geräten und möglicherweise andere AI-Komponenten, die überhaupt keine Netzwerke vom Aktivierungstyp sind. Natürlich sollten Faltungskerne und verschiedene Arten von Codierern als wichtige Systemkomponenten betrachtet werden.
Sie benötigen eine große Menge an Trainingsdaten, um die oben genannten sechs Fälle abzudecken (der letzte der fünf Punkte sind tatsächlich zwei verschiedene Aktionen, die wir normalerweise zuordnen und als eine betrachten). Wenn Sie mehr Aktionen erkennen möchten, benötigen Sie auch eine große Menge an Trainingsdaten.
Verben und Substantive
Der Grund, warum diese Frage für mich interessant ist, ist, dass das Erkennen von AKTIONEN nicht dasselbe ist wie das Erkennen von EINZELTEILEN. Alle Säugetiere lernen zuerst EINZELTEILE und später MASSNAHMEN. In der kindlichen Sprachentwicklung stehen Substantive sprachlich vor Verben. Dies liegt daran, dass genau wie das Erkennen von Kanten für das Erkennen von Formen, das für das Erkennen von Objekten erforderlich ist, das Erkennen von Bewegungen für das Erkennen von Aktionen erforderlich ist.
Verben wie "Essen" sind eine Abstraktion über die Bewegung hinaus, und beim Essen ist die Bewegung komplex. Essen ist auch nicht dasselbe wie Kaugummi, daher muss die erkannte Sequenz wie folgt sein:
- Einführen von Lebensmitteln in das Gesicht durch den Mund
- Kauen
- Schlucken
Die Wahrscheinlichkeit einer Sequenz ist das Produkt der Wahrscheinlichkeit ihrer Teile, so dass Mathematik einfach und leicht zu implementieren ist. Parallelität ist im Allgemeinen auch relativ einfach zu handhaben, wie im Fall von Konjunktivaktionen wie dem Telefonieren und Abhören desselben Telefons.
Ein realistischer Ansatz
Sicherlich muss eine Verallgemeinerung (und insbesondere eine Merkmalsextraktion) bei der Objekterkennung, Kollisionserkennung, Bewegungserkennung, Gesichtserkennung und anderen Ebenen gleichzeitig erfolgen. Eine komplexe Topologie, bei der möglicherweise Equalibria wie beim GAN-Design verwendet wird, ist höchstwahrscheinlich erforderlich, um Elemente von Kriterien zusammenzustellen, die der Filmabfragezeichenfolge zugeordnet sind, und um Fenster über die Frames jedes Films auszuführen.
Um einen Dienst bereitzustellen, der innerhalb weniger Tage oder Wochen Ergebnisse zurückgibt, sind wahrscheinlich ein Cluster und DSP-Hardware erforderlich (möglicherweise mithilfe von GPUs).
Sonderfälle, mit denen das menschliche Gehirn umgeht
Es kann schwierig sein zu bestimmen, wie lange eines der beiden Elemente der Parallelität nicht erkannt werden kann, bevor die Konjunktion ungültig wird. (Wie lange kann man nicht in das Telefon sprechen, bevor sich herausstellt, dass es nicht mehr als Telefongespräch gilt?)
Wenn im Film nur das Schlucken gezeigt wird, kann ein Mensch auf das Essen schließen. Diese Art der Zuverlässigkeit von Schlussfolgerungen aus spärlichen Daten ist eine große KI-Herausforderung, die in verschiedenen Zusammenhängen in der Literatur diskutiert wird.
Die Entstehung assoziierter Technologie - Eine Projektion
Ich vermute, dass die Systemtopographie, die aus ANNs, Encodern, Faltungskernen und anderen Komponenten besteht, um die Suche nach einer ausgewählten Gruppe von Aktionen durchzuführen, innerhalb der nächsten zehn Jahre entstehen wird. Die Arbeit scheint in der Literatur in diese Richtung zu gehen.
Ein System, das seine eigenen Trainingsinformationen erhält, sein Wissen nachhaltig erweitert und allgemeine Suchvorgänge durchführt, wenn die zunehmende Breite und Komplexität zwischen vierzig und zweihundert Jahren liegen kann. Es ist schwer vorherzusagen.
Grobe überoptimistische Vorhersagen
Jede Generation scheint das Wissenswachstum als exponentielle Funktion zu betrachten und neigt dazu, unrealistische Vorhersagen über das Aufkommen bestimmter begehrter technologischer Fähigkeiten zu treffen. Die meisten Vorhersagen schlagen dramatisch fehl. Ich bin zu der Überzeugung gelangt, dass das exponentielle Wachstum eine Illusion ist, die durch den inversen exponentiellen Zerfall des Interesses in der Vergangenheit in Bezug auf die Zeit erzeugt wurde.
Wir verlieren den Überblick über die Energie und die Wachstumsrate der vor uns liegenden Epochen, weil sie sozial irrelevant werden. Menschen in der Wissenschaftsgeschichte wie Whitehead, Kuhn und Ellul wissen, dass sich die Technologie seit mindestens einigen hundert Jahren schnell weiterentwickelt hat. Vernadski folgerte in seiner The Biosphere dass das Leben möglicherweise nicht entstanden ist, dass es wie Materie und Energie immer existiert haben könnte. Ich frage mich, ob sich die Technologie in den letzten 50.000 Jahren im Wesentlichen konstant bewegt hat.
Deutschland beschloss, seine Energieerzeugung aus Solarmodulen jedes Jahr zu verdoppeln, und veröffentlichte seinen exponentiellen Erfolg, bis vor einigen Jahren eine erneute Verdoppelung hundert Milliarden Dollar mehr kosten würde, als sie ausgeben mussten. Sie haben aufgehört, die exponentiellen Wachstumsgraphen zu veröffentlichen.