Ich verstehe die Rolle und den Mechanismus von Faltungsebenen in Deep Learning für die Bildverarbeitung bei 2D- oder 3D-Implementierungen allgemein - sie versuchen "einfach", 2D-Muster in Bildern zu erfassen (bei 3D in 3 Kanälen).
Aber kürzlich bin ich im Kontext der Verarbeitung natürlicher Sprache auf 1D-Faltungsschichten gestoßen, was für mich eine Überraschung ist, da die 2D-Faltung meines Wissens insbesondere zum Erfassen von 2D-Mustern verwendet wird, die in 1D-Form (Vektorform) nicht sichtbar sind von Bildpixeln. Welche Logik steckt hinter der 1D-Faltung?