Im Moment versuche ich, eine Art Tiefenpuffer in Software zu implementieren, und ich habe ein großes Problem, wenn ich darauf schreibe. Einen Mutex zu haben ist ein absoluter Overkill. Also habe ich eine Anzahl von Mutexen erstellt, die der Anzahl der Threads entspricht. Ich sperre einen Mutex basierend auf dem aktuellen Pixel (pixel_index% mutexes_number) und dies funktioniert besser, aber immer noch sehr, sehr langsam. Und ich frage mich, wie es in einer echten GPU gemacht wird? Gibt es einen cleveren Algorithmus oder eine Hardware, die damit umgeht?