Viele von uns müssen sich mit Benutzereingaben, Suchanfragen und Situationen befassen, in denen der Eingabetext möglicherweise Schimpfwörter oder unerwünschte Sprache enthalten kann. Oft muss dies herausgefiltert werden.
Wo kann man eine gute Liste von Schimpfwörtern in verschiedenen Sprachen und Dialekten finden?
Gibt es APIs für Quellen, die gute Listen enthalten? Oder vielleicht eine API, die mit einigen Parametern einfach "Ja, das ist sauber" oder "Nein, das ist schmutzig" sagt?
Was sind einige gute Methoden, um Leute zu fangen, die versuchen, das System auszutricksen, wie ein $$, azz oder a55?
Bonuspunkte, wenn Sie Lösungen für PHP anbieten. :) :)
Bearbeiten: Antwort auf Antworten, die einfach das programmatische Problem vermeiden:
Ich denke, es gibt einen Ort für diese Art von Filter, an dem ein Benutzer beispielsweise mithilfe der öffentlichen Bildsuche Bilder finden kann, die einem sensiblen Community-Pool hinzugefügt werden. Wenn sie nach "Penis" suchen können, werden sie wahrscheinlich viele Bilder von bekommen, yep. Wenn wir keine Bilder davon wollen, ist es ein guter Gatekeeper, das Wort als Suchbegriff zu verhindern, obwohl dies zugegebenermaßen keine narrensichere Methode ist. Die Liste der Wörter überhaupt zu bekommen, ist die eigentliche Frage.
Ich beziehe mich also wirklich auf einen Weg, um herauszufinden, ob ein einzelnes Token schmutzig ist oder nicht, und es dann einfach nicht zuzulassen. Ich würde mir nicht die Mühe machen, ein Gefühl wie die total witzige Referenz "Langhalsgiraffe" zu verhindern. Da kann man nichts machen. :) :)