Es sieht für mich so aus, als ob die undichte ReLU eine viel bessere Leistung haben sollte, da die Standard-ReLU nicht die Hälfte ihres Speicherplatzes nutzen kann (x <0, wenn der Gradient Null ist). Dies ist jedoch nicht der Fall und in der Praxis verwenden die meisten Benutzer Standard-ReLU.