Künstliche Intelligenz

Fragen und Antworten für Menschen, die an konzeptionellen Fragen zum Leben und an Herausforderungen in einer Welt interessiert sind, in der "kognitive" Funktionen in einer rein digitalen Umgebung nachgeahmt werden können


5
Ist ein genetischer Algorithmus ein Beispiel für künstliche Intelligenz?
Da die menschliche Intelligenz vermutlich eine Funktion eines natürlichen genetischen Algorithmus in der Natur ist, ist die Verwendung eines genetischen Algorithmus in einem Computer ein Beispiel für künstliche Intelligenz? Wenn nicht, wie unterscheiden sie sich? Oder sind einige vielleicht und einige drücken keine künstliche Intelligenz aus, abhängig von der Größe …



2
Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?
Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …

1
Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?
Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = …






3
Welche mathematischen Probleme gibt es in der KI, an denen Menschen arbeiten?
Ich habe vor kurzem eine 18-monatige Postdoc-Stelle in einer Mathematikabteilung bekommen. Es ist eine Position mit relativ geringer Lehrpflicht und viel Freiheit darüber, welche Art von Forschung ich machen möchte. Zuvor habe ich mich hauptsächlich mit Wahrscheinlichkeits- und Kombinatorik befasst. Aber ich denke darüber nach, etwas anwendungsorientierter zu arbeiten, z. …
11 research  math 


3
Was ist der Unterschied zwischen Schauspieler-Kritiker und Vorteils-Schauspieler-Kritiker?
Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen. Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet. Aber …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.