Bild- und Inhaltsanalyse zur Bestimmung der Unterschiede zwischen einem geschmackvollen Foto einer Person, einem Badeanzugfoto, einem Aktfoto, Darstellungen von Pornografie ... Soweit ich weiß, ist das nicht annähernd ausreichend, um es allein mit Software zu tun.
Glücklicherweise sollte Crowdsourcing hier nützlich sein, wie @ammoQ in einem Kommentar angedeutet hat. Ich glaube jedoch nicht, dass Mitglieder von 4chan oder eines anderen Forums die große Anzahl nicht- pornografischer Bilder, wie allgemeine Webgrafiken für Schaltflächen, Rahmen, Werbung usw., die veröffentlicht werden, schätzen würden .
Meine Empfehlung wäre, bestehende Crowdsourcing-Lösungen wie Amazon Mechanical Turk zu prüfen . (Die Nutzungsbedingungen können jedoch die Beteiligung von pornografischen Inhalten ausdrücklich untersagen. Daher sollten Sie darauf hingewiesen werden, dass Sie möglicherweise eine andere Lösung finden oder Ihre eigene wählen müssen.)
Um Crowdsourcing möglich zu machen, sollte Ihre Software bereit sein, einige oder alle der folgenden Aktionen auszuführen:
- Speichern Sie Informationen, die den Inhalt mit dem Computer verknüpfen, von dem er stammt
- Identifizieren Sie exakte Duplikate im gesamten Inventar und entfernen Sie sie (die Ursprungsinformationen bleiben jedoch erhalten).
- Reduzieren Sie die Auflösung von Bildern auf eine bestimmte Größe, z. B. 320 x 200, was ausreicht, um den Inhalt des Bildes zu identifizieren, ohne unnötige Details beizubehalten und Speicherplatz / Bandbreite zu verschwenden
- Erstellen Sie in regelmäßigen Abständen Standbilder von Videoinhalten und wenden Sie dieselbe Downsampling-Regel an
Schließlich wird die Datenbank mit verkleinerten Bildern, die das Originalbild und den Videoinhalt darstellen, von Benutzern (oder einem bestimmten Team, wenn Sie über die Ressourcen verfügen) gemäß dem Verhaltenskodex Ihres Unternehmens überprüft. Das Programm oder die Benutzeroberfläche zeigt möglicherweise jeweils ein einzelnes Bild oder einen Bildschirm mit Miniaturansichten an - was auch immer Sie für am besten halten, um genaue Informationen zu erhalten.
Die Identität des Computers, von dem die Bilder stammen, sollte für die Personen, die die Daten auswerten, absolut geheim und unbekannt sein. Zusätzlich sollte es randomisiert und jedes Bild wahrscheinlich mehr als einmal überprüft werden, um Verzerrungen zu beseitigen.
Dieselbe Technik könnte für Text verwendet werden, aber zuerst könnte der Inhalt durch Keyword-Rankings bewertet werden, die den Großteil des Texts aus der Crowdsource-Überprüfung entfernen. Das Klassifizieren eines langen Dokuments ist natürlich zeitaufwendiger als das Klassifizieren eines Bildes.