Woher weiß Recaptcha, dass Sie keine gefälschten Übersetzungen der Bilder eingeben?


22

Soweit ich weiß, handelt es sich bei Captchas um Text, der durch die Anwendung von Filtern, Rauschen und anderen fehlgeschlagenen Algorithmen verzerrt wurde. Um herauszufinden, ob die Lesefähigkeit einer Person der einer Person entspricht, vergleichen Sie die Antwort mit der bekannten Antwort.

Beim Nachlesen von ReCaptcha heißt es nun, dass die angezeigten Wörter diejenigen sind, die von OCR nicht übersetzt werden können. Außerdem werden diese Bilder mit Recaptcha übersetzt. Woran erkennt man, ob Sie tatsächlich richtig lesen oder sich nur etwas ausdenken?

Wenn es wüsste, was es sagte, würde es nicht in Recaptcha als Übersetzungsmaterial verwendet. Wenn es nicht weiß, was der Text sagt, wie bestätigt es dann Ihre Antwort?

Ich vermute, dies ist wahrscheinlich eine wahrscheinlichkeitsbasierte Analyse mit riesigen Stichprobengrößen, bevor sie irgendetwas als übersetzt kennzeichnet.

Weiß jemand, wo die Antwort darauf ist?


3
Interessant ist der 4chan / anonyme Streich bei der Zeitumfrage. "Marble Cake, also das Spiel", das Fehler in der Crowdsourcing-Überprüfung des zweiten Wortes ausnutzt.
DanBeale

Antworten:


33

Buchseiten werden im Grunde genommen fotografisch gescannt und dann mit "Optical Character Recognition" (OCR) in Text umgewandelt und in Form eines Bildes mit einem Wort, das dem Computerprogramm hinter reCAPTCHA bekannt ist, und einem Wort, das es nicht ist, in das Web eingespeist noch bekannt.

Der Benutzer tippt dann beide Wörter aus, und wenn er dasjenige löst, für das die Antwort bekannt ist, geht das System davon aus, dass seine Antwort für das neue richtig ist. Das System gibt das neue Bild dann an eine Reihe anderer Personen weiter, um mit größerer Sicherheit festzustellen, ob die ursprüngliche Antwort korrekt war. Daher ist das System ein sich selbst verbessernder Dienst, der mit der Zeit besser wird.

http://www.google.com/recaptcha/learnmore


22

Aus diesem Grund müssen Sie in reCaptcha zwei Wörter eingeben . Eines der Wörter ist bereits bekannt und eines der Wörter ist nicht bekannt. Ob Sie das Captcha bestehen oder nicht, hängt davon ab, wie Sie auf das bekannte Wort antworten. Ihre Antwort für das andere (unbekannte) Wort wird zusammen mit anderen Antworten auf dasselbe Wort verwendet, um es ebenfalls in ein bekanntes Wort umzuwandeln.


4
... das ist auch der Grund, warum es mit der Zeit immer frustrierender wird, es zu benutzen, und Sie davon überzeugt, dass Sie ein Idiot / Roboter sind, wenn Sie es zum fünften Mal in Folge nicht schaffen. :-(
Sirex

Seltsam ... Ich habe noch nie einen gescheitert, an den ich mich erinnern kann, vielleicht nur Glück für mich.
Paul

@ Sirex Früher habe ich das gedacht, aber dann wurde mir klar, dass dies nur dann zutrifft, wenn die Größe des Korpus-Texts konstant ist oder im Verhältnis zur Anzahl der Captcha-Einträge schrumpft. Die Wahrheit ist, dass der Korpus-Text wächst ... die Frage ist, ob dieses Wachstum mit dem Wachstum des gesamten Captcha-Gebrauchs Schritt hält.
Joel Coehoorn

ja ich glaube. Ich habe viele Recaptchas gesehen, die einfach wahnsinnig schwer sind. Wo sogar das bekannte Wort mehrdeutig ist.
Sirex
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.