Ich habe die Netzwerkarchitektur aus dem Papier „Lernfeinkörniges Bild Ähnlichkeit mit tiefem Ranking“ und ich bin nicht in der Lage, herauszufinden , wie die Ausgabe von dem drei parallelen Netzwerk verschmolzen wird , um die linear mit Einbettungsschicht. Die einzigen Informationen, die auf dieser Ebene im Papier angegeben sind, sind
Schließlich normalisieren wir die Einbettungen aus den drei Teilen und kombinieren sie mit einer linearen Einbettungsschicht. Die Dimension der Einbettung beträgt 4096.
Kann mir jemand helfen, herauszufinden, was genau der Autor meint, wenn er über diese Ebene spricht?