Wurde der Lovelace-Test 2.0 im akademischen Umfeld erfolgreich eingesetzt?

Im Oktober 2014 veröffentlichte Dr. Mark Riedl einen Ansatz zum Testen der KI-Intelligenz, den "Lovelace-Test 2.0" , der sich vom ursprünglichen Lovelace-Test (veröffentlicht im Jahr 2001) inspirieren ließ . Mark glaubte, dass der ursprüngliche Lovelace-Test nicht bestanden werden könne, und schlug daher eine schwächere und praktischere Version vor.

Der Lovelace-Test 2.0 geht davon aus, dass eine intelligente KI Kreativität zeigen muss. Aus dem Papier selbst:

Der Lovelace 2.0-Test sieht wie folgt aus: Der künstliche Wirkstoff a wird wie folgt herausgefordert:

a muss ein Artefakt o vom Typ t erzeugen;

o muss einer Reihe von Bedingungen C entsprechen, wobei ci ∈ C ein in natürlicher Sprache ausdrückbares Kriterium ist;

ein menschlicher Bewerter h, der t und C gewählt hat, ist überzeugt, dass o eine gültige Instanz von t ist und C erfüllt; und

Ein menschlicher Schiedsrichter bestimmt, dass die Kombination von t und C für einen durchschnittlichen Menschen nicht unrealistisch ist.

Da es für einen menschlichen Bewerter möglich ist, einige ziemlich einfache Einschränkungen für eine KI zu finden, die zu überwinden sind, wird von dem menschlichen Bewerter erwartet, dass er immer komplexere Einschränkungen für die KI findet, bis die KI ausfällt. Ziel des Lovelace-Tests 2.0 ist es , die Kreativität verschiedener KIs zu vergleichen und nicht wie beim Turing-Test eine klare Trennlinie zwischen "Intelligenz" und "Nicht-Intelligenz" zu schaffen.

Ich bin jedoch gespannt, ob dieser Test tatsächlich in einem akademischen Umfeld angewendet wurde oder im Moment nur als Gedankenexperiment angesehen wird. Der Lovelace-Test scheint in akademischen Situationen einfach anzuwenden zu sein (Sie müssen nur einige messbare Einschränkungen entwickeln, mit denen Sie das künstliche Agens testen können), er kann jedoch auch zu subjektiv sein (Menschen können in Bezug auf bestimmte Einschränkungen anderer Meinung sein und ob Ein kreatives Artefakt, das von einer KI hergestellt wurde, trifft tatsächlich auf das Endergebnis.

history intelligence-testing

— Linke SE auf 10_6_19
quelle

Nein.

TL; DR: Der Lovelace-Test 2.0 ist sehr vage und daher für die Bewertung der Intelligenz ungeeignet. Dies wird im Allgemeinen auch von Forschern der Computergestützten Kreativität ignoriert, die bereits über eigene Tests zur Bewertung der Kreativität verfügen.

Längere Antwort: Laut Google Scholar gibt es 10 Verweise auf das Papier "Lovelace Test 2.0". Alle diese Referenzen sind nur vorhanden, um darauf hinzuweisen, dass der Lovelace-Test 2.0 vorhanden ist. Tatsächlich schlugen mindestens zwei von mir konsultierte Artikel ( Ein neuartiger Ansatz zur Identifizierung eines menschenähnlichen, selbstbewussten Verhaltens und FraMoTEC: Ein Rahmen für die modulare Konstruktion von Aufgabenumgebungen zur Bewertung adaptiver Steuerungssysteme ) ihre eigenen Tests vor.

Einer der Autoren, der das FraMoTEC-Papier verfasst hat, hat auch seine Dissertation über FraMoTEC verfasst und indirekt den Lovelace-Test 2.0 und ähnliche Tests kritisiert:

Das Piaget-MacGyver-Raumproblem [Bringsjord und Licato, 2012], der Lovelace-Test 2.0 [Riedl, 2014] und das Toy-Box-Problem [Johnston, 2010] haben alle den Vorbehalt, sehr vage definiert zu sein - diese Bewertungsmethoden dürften kommen Es ist jedoch sehr schwierig, zwei verschiedene Agenten (oder Controller) zu vergleichen, die an ihren eigenen domänenspezifischen Bewertungen teilnehmen. Dies ist häufig der Fall, wenn Agenten so zugeschnitten sind, dass sie bestimmte Bewertungen bestehen.

Ein weiteres Hauptproblem beim Lovelace-Test 2.0 ist, dass es eine Vielzahl anderer Tests gibt, mit denen die Kreativität der KI "gemessen" werden kann. Evaluating Evaluation: Bewertung des Fortschritts in der computergestützten Kreativitätsforschung , veröffentlicht von Anna Jordanous im Jahr 2011 (3 Jahre vor der Erfindung des Lovelace-Tests 2.0) analysierte Forschungsarbeiten zur KI-Kreativität und schrieb:

Von den 18 Beiträgen, in denen Methoden zur Bewertung der Kreativität angewendet wurden, um die Kreativität ihres Systems zu bewerten, hat sich in der gesamten Community keine einzige als Standard herausgestellt. Coltons kreatives Stativgerüst ( Colton 2008 ) wurde am häufigsten verwendet (6 Anwendungen), wobei 4 Arbeiten die empirischen Kriterien von Ritchie verwendeten ( Ritchie 2007 ).

So bleiben 10 Arbeiten mit verschiedenen Methoden zur Bewertung der Kreativität.

Das Ziel von "Evaluating Evaluation" war es, den Prozess der Bewertung von Kreativität zu standardisieren, um zu verhindern, dass das Feld aufgrund der Zunahme so vieler Kreativitätstests stagniert. Anna Jordanous war weiterhin an der Bewertung von Kreativitätstests interessiert und veröffentlichte Artikel wie "Schritt für Schritt vorwärts: Standards für die Metaevaluierung von Computerkreativität setzen" und " Vier PPPP-Perspektiven für Computerkreativität" .

"Evaluating Evaluation" liefert einige Kommentare, um die Verbreitung von Systemen zur Bewertung von Kreativität zu erklären:

Bewertungsstandards sind nicht einfach zu definieren. Es ist schwierig, Kreativität zu bewerten und noch schwieriger zu beschreiben, wie wir Kreativität bewerten, sowohl in menschlicher als auch in rechnerischer Kreativität. Tatsächlich ist sogar die Definition von Kreativität problematisch (Plucker, Beghetto und Dow 2004). Es ist schwer zu erkennen, was es heißt, kreativ zu sein, daher gibt es keine Maßstäbe oder Grundwahrheiten, an denen man sich messen kann.

Die Tatsache, dass es bereits so viele Kreativitätsprüfungen gibt (in dem Maße, wie Jordan eine akademische Laufbahn im Studium einschlagen kann), bedeutet, dass es sehr schwierig ist, einen neuen Test (wie den Lovelace-Test 2.0) überhaupt zu bemerken (viel weniger zitiert) ). Warum sollten Sie so etwas wie den Lovelace-Test 2.0 verwenden, wenn es so viele andere Tests gibt, die Sie stattdessen verwenden könnten?

— Linke SE auf 10_6_19
quelle