Physischer Text zu digitalem Text


9

Lassen Sie mich dieser Frage zuerst ein Präfix voranstellen. Ich habe keine Ahnung, welche StackExchange-Site für diese Frage am besten geeignet ist, aber ich dachte, LifeHacks könnte funktionieren ...

1998 hatte die Familie meiner Mutter ein großes Familientreffen (meine Urgroßmutter hatte zehn Kinder, es war also wirklich eine große Versammlung). Einer meiner entfernten Onkel schrieb für dieses Wiedersehen eine Art Buch über unsere Familiengeschichte, und meine Mutter gab mir das Buch zum Lesen. Ich konnte nicht glauben, wie groß es ist und wie viel Forschung in das Buch geflossen ist. Ich möchte einen Weg finden, um das ganze Buch auf eine Website zu bringen, die ich erstellen werde, wo ich es dann mit allen in unserer Familie teilen und letztendlich die Geschichte länger bewahren kann als dieses schwache Buch.

In der Hoffnung, dass ich dieses ganze 300-Seiten-Buch nicht Wort für Wort eingeben muss, gibt es eine Möglichkeit, die Seiten einfach zu scannen und in digitalen Text zu bringen? Natürlich könnte ich einfach Fotos machen und die Website mit den Bildern erstellen, aber ich denke, es wäre vorteilhafter, sie als tatsächlichen Text zu haben, da sie dann bei Google-Suchanfragen möglicherweise besser angezeigt wird, wenn jemand nach einem Familiennamen oder ähnlichem sucht. Wenn jemand in der Familie jemals ein Forschungsprojekt über unsere Familie durchführt, kann er einen Teil des Textes kopieren und leichter darauf verweisen.

Weiß jemand, wie ich dieses alte Familienbuch am besten in digitalen Text umwandeln kann?

Titelseite buchen

Buch mit Angabe der Dicke

Antworten:


14

Verwenden Sie ein Android-Handy und die Funktion " Google Lens ", die kürzlich zur Foto-App hinzugefügt wurde, und die Kamera-Foto-Überprüfung wurde angezeigt.

OCR über Google Lens ist ziemlich erstaunlich und genau, über jede OCR-Software hinaus, die ich jemals verwendet habe.

Im Folgenden finden Sie einige Screenshots, in denen die Vorgehensweise mit einem billigen (100 USD) Nokia 3 beschrieben wird. Das beste Telefon, das ich verwenden durfte, seit mein geliebtes Nexus 4 den Geist aufgegeben hat.

Ich werde einen OCR-Beispielscan eines 1976 gedruckten griechischen Ethymologie-Buches detaillieren, das ich beim Scannen nicht auseinander reißen darf und das eine ähnliche Zeichendichte und Schriftart zu haben scheint.

Ich habe dieses Originalbild bei weniger als idealen Lichtverhältnissen aufgenommen und dabei alle automatischen Einstellungen der so lala Telefonkamera verwendet. Es wurden keine speziellen Fototechniken oder Vorrichtungen verwendet, um das Ergebnis zu verbessern. Man könnte sagen, es ist nur ein einfaches, amateurhaft aufgenommenes Telefonbild von a Buchseite . (Stellen Sie einfach sicher, dass der Text fokussiert ist. Keine OCR entschlüsselt verschwommenen, unscharfen Text.)

Geben Sie hier die Bildbeschreibung ein

Klicken Sie auf das Google-Objektivsymbol, das über die Vorschau nach der Aufnahme des Bildes oder auf das Foto selbst mit der Google Fotos-App verfügbar ist

Geben Sie hier die Bildbeschreibung ein

Hier ist -Skynet- ^M^M^M^M^M^MIch meine, Google Lens macht sein magisches Scannen (die Punkte sind ein bisschen gruselig, aber sie mussten etwas tun, um Sie wissen zu lassen, dass die Googley-KI ihre Sache macht, denke ich).

Geben Sie hier die Bildbeschreibung ein

Sobald das Bild gescannt wurde, finden Sie die Textbereiche, die Google Lens auf dem Bild gefunden hat, klar umrissen und deren Text bereits in die untere Hälfte des Bildschirms extrahiert. Wenn Sie nur einige Bereiche und nicht andere möchten, berühren Sie einfach Ihre Auswahl, um sie zu aktivieren / deaktivieren.

Wenn Sie den extrahierten Text berühren, wird er in Ihrer Zwischenablage abgelegt, damit Sie ihn überall auf Ihrem Telefon kopieren / einfügen können.

Geben Sie hier die Bildbeschreibung ein

Fügen Sie anschließend einfach den Text in ein Google Docs- Dokument ein. Dort können Sie: - Fehler direkt dort oder auf Ihrem PC korrigieren, - das Dokument nach Herzenslust freigeben, - es als Webseite mit Live-Aktualisierung Ihrer Änderungen veröffentlichen oder - in - Klartext, - Word-Dokument exportieren , - Open Office-Dokument, - Kindle-kompatibles elektronisches Epub- Buch mit fließendem Text oder - gutes altes Nicht-DRMd-PDF

Es könnte argumentiert werden, dass dies wahrscheinlich der kürzeste Weg zur Veröffentlichung ist, mit der größtmöglichen Auswahl an Ausgaben.

Sie können alles von einem einzigen Gerät aus erledigen (Android-Telefon mit den entsprechenden installierten Apps) und es in kürzester Zeit mit einer hohen Genauigkeitsrate erledigen, im Grunde kostenlos.

Hier ist das in Google Docs eingefügte Fragment
Geben Sie hier die Bildbeschreibung ein

Hier ist die URL-Freigabe für Google-Dokumente. Sie können diese gerne kommentieren. Sie können sich auch von jemandem helfen lassen, das Dokument remote und gleichzeitig zu bearbeiten.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Schließlich ist hier eine Google Sites-Website, die unter Verwendung des oben genannten Dokuments als verknüpfte Quelle veröffentlicht wurde

https://sites.google.com/h-lo.me/ocrsample

Es ist https-, Desktop- und Mobile-fähig und je nach Geschmack im Allgemeinen kein Auge wund. Nicht schlecht für 15 Minuten Gesamtarbeit und überhaupt keine Codierung.


Es gibt noch eine Verfeinerung, nämlich das Erstellen geeigneter Absätze im Google-Dokument, da Google Lens nach jeder extrahierten Textzeile eine harte Rückgabe einfügt, wodurch jede Zeile zu einem eigenen Absatz wird und dies zu einem Problem wird, wenn Sie es verwenden möchten Google Text & Tabellen- Funktionen wie das Inhaltsverzeichnis oder wenn Sie Ihr Dokument in ein Kindle-kompatibles elektronisches E-Pub-Buch exportieren (durcheinander bringender Text)

Sie können einfach jede Zeile verbinden, indem Sie bei jedem Zeilenstart die Rücktaste drücken, oder dies kann mit einem Skript automatisiert werden.

Daher schreibe ich ein Apps-Skript-Add-On, das ich in Kürze veröffentlichen werde, um diesen Prozess zu automatisieren. Ich werde Sie hier wissen lassen, wenn es fertig ist.


Großartiges Detail. Ich mag diese kostenlose Lösung. Vielen Dank!
Kyle Bridenstine

Gern geschehen! Vielleicht haben Sie sogar schon alles, was Sie brauchen! :)
Hlecuanda

Für ein dickes Buch ist dies ein sehr arbeitsintensiver Ansatz: Sie müssen jede Seite manuell umblättern und dann fotografieren.
Hobbes

6

Sie können dies schrittweise tun. Beginnen Sie damit, alles als Seitenscans online zu stellen und zu aktualisieren, wann immer Sie können. Die Cerlox ™ -Kammbindung aus Kunststoff erleichtert das Zerlegen und Wiedereinsetzen.

Da der Druck als normaler Serifentyp in derselben Größe erscheint, können die Scans mithilfe der Software zur optischen Zeichenerkennung digitalisiert werden. OCR kann Ihnen einen Entwurf einer Textdatei geben, die Sie Korrektur lesen und auf der Website für das endgültige Formular veröffentlichen können.

Gleichzeitig können Sie die Bilder und anderes Bildmaterial aufräumen.

Sie können dies tun, sobald Ihnen Zeit / Ressourcen für das Projekt zur Verfügung stehen.


Ähnlich wie bei der vorherigen Antwort, jedoch nicht so detailliert.
Trajan Espelien

@TrajanEspelien Welche vorherige Antwort? Überprüfen Sie den Zeitstempel. Die Antwort war zuerst zwei Tage vor der Einreichung von Hiecuanda. :)
Stan

Ja, aber es hat nicht so viele Details wie die andere Antwort, weshalb ich die andere darüber akzeptiert habe. Es ist nicht first come first server. Es ist die beste Antwort.
Kyle Bridenstine

@ KyleBridenstine Kein Scherz! Ich habe auch Hiecuanda positiv bewertet. Es war eine großartige Antwort. Was ist übrigens, wenn Sie kein Android-Handy hatten oder nicht auf Glass zugreifen können? Ich gab eine allgemeine Antwort auf die Frage. :)
Stan

1
@ KyleBridenstine Danke für die freundlichen Worte. Sind wir uns einig. Ich denke, Sie haben das Richtige getan, indem Sie gewartet haben. Die erste Antwort ist NICHT die beste (es sei denn, es gibt einen Grund. Es gibt schließlich Fristen.) Ich habe den Link zu Ihrer Frage und die großartige Antwort von hiecuanda an einen Kollegen gesendet, der dasselbe mit einem riesigen Stapel Schulunterlagen von tun muss Brasilien!
Stan

2

Einige gute Antworten, um es selbst anzugehen.

Ich möchte meine Erfahrung hinzufügen, jemand anderen dafür zu bezahlen.

Ich habe Digitize My Books in Großbritannien verwendet (ich bin selbst in Großbritannien ansässig).

Ich war sehr sehr zufrieden mit den Ergebnissen: Jedes Buch wird als PDF mit durchsuchbarem (und kopierbarem) Text zurückgegeben. Es wird eine Standard-PDF-Technik verwendet, bei der das Originalbild für jede Seite beibehalten wird, jedoch mit einer Textüberlagerung, sodass Sie den Originaltext auf der Seite hervorheben können. Sehr guter Wert. Als jemand aus Großbritannien in Übersee können Sie ihm trotzdem die Bücher schicken.

Sie bieten auch die Option, dass das Buch im bearbeitbaren Word-Dokumentformat zu zusätzlichen, aber sehr vernünftigen Kosten vorliegt.

Wenn Sie nicht verlangen, dass das Original zurückgegeben wird, ist die billigste Option die Auswahl des destruktiven Scannens. Hier werden die Seiten einzeln aus dem Buch entnommen und gescannt. Standardmäßig wird das Originalbuch nicht zurückgegeben, obwohl Sie es meines Erachtens möglicherweise gegen Aufpreis anfordern können (z. B. für das Rückporto), aber die Seiten sind lose, da sie entfernt wurden, um einzeln gescannt zu werden. Destruktives Scannen ist die Option, die ich für alle meine Bücher gewählt habe, und ich habe nicht verlangt, dass die Originale zurückgegeben werden.

Sie bieten auch zerstörungsfreies Kopieren, wenn Sie das Original benötigen, die Kosten jedoch höher sind. Sie akzeptieren auch Ihre eigenen digitalen Scans, wenn Sie bereits ein Buch selbst gescannt haben. Sie können daraus ein durchsuchbares, kopierfähiges PDF- oder Word-Dokument machen.

Schauen Sie sich auf ihrer Website um. Ich denke wirklich, dass dies die beste Option ist: Geld ausgeben, um Zeit zu sparen, anstatt Zeit zu verbringen, um Geld zu sparen.

Ich arbeite nicht für Digitize My Books und habe auch kein finanzielles Interesse daran (Aktionär oder anderweitig).

Ursprünglich hatte ich begonnen, die Bücher selbst zu "scannen", indem ich mit einer DSLR-Kamera fotografierte (das Fotografieren ist schneller als das Scannen mit Flachbett), wobei jede Seite mit einem Clip in der Zwischenablage und Blu-Tak offen gehalten wurde. Aber ich fand das ziemlich arbeitsintensiv.

Wenn Sie es immer noch selbst tun möchten, ist ScanTailor eine Open Source-Windows-Anwendung, die Doppelseiten / Seitenpaare beim Scannen in einzelne Seiten aufteilt, begradigt und "entwirrt". Damit die resultierenden Seiten wie gewünscht flach und gerade erscheinen, wird jedoch keine OCR ausgeführt: Die Ergebnisse sind immer noch Bitmap-Bilder. Zumindest ist es jedoch eine Möglichkeit, das Aufräumen von Verzerrungen auf den Seiten stapelweise zu automatisieren, insbesondere beim zerstörungsfreien Kopieren, bei dem es schwierig ist, die Seiten für große Bücher vollständig flach anzuordnen.

Aktualisiert

Weitere Informationen zu den von einem Dienst angebotenen Scanoptionen wurden hinzugefügt. ScanTailor weitere Informationen. Grammatikkorrekturen.


1

Der schnellste Weg, dies zu tun, besteht darin, Ihren Verwandten zu kontaktieren und zu prüfen, ob er noch die Originaldateien hat, mit denen er das Buch erstellt hat. Auf dem Foto auf der Titelseite würde ich sagen, dass es auf einem Computer erstellt wurde. Konvertieren Sie von {hier ein wirklich altes Textverarbeitungspaket einfügen} in ein aktuelles Format und fertig.

Der zweitschnellste Weg, einen Stapel Drucksachen in ein digitales Dokument umzuwandeln:

  1. Entfernen Sie die Bindung.
  2. Schneiden Sie den linken Rand der Seiten ab, um die Löcher zu entfernen. Löcher stören einen Dokumenteneinzug.
  3. Gehen Sie das Buch durch und entfalten Sie alle Falten und sonstigen Schäden, die einen Dokumenteneinzug beeinträchtigen könnten.
  4. Finden Sie einen einigermaßen modernen Duplexdrucker mit Dokumenteneinzug und Scanfunktion. In PDF scannen.

Verwenden Sie dann ein beliebiges OCR-Paket, um die gescannten Seiten in eine Word-Datei umzuwandeln. Zu diesem Zweck verwende ich die OCR-Funktionen in der Vollversion von Adobe Acrobat, aber es gibt viele OCR-Engines.


0

Vielleicht möchten Sie einen sehr kostengünstigen Service ausprobieren: keep-your-memories.info. Wenn ich es selbst mache, scanne ich mit meinem Scanner zu OmniPage, einem OCR-Programm, und speichere es dann als PDF-Datei, die vollständig durchsuchbar ist. Da Ihre Publikation kammgebunden ist, können Sie sie leicht zerlegen, um einzelne Seiten zu scannen und anschließend erneut zu binden. Das Aufnehmen von Bildern, wie in den obigen Vorschlägen beschrieben, ist ebenfalls sehr praktikabel - ein guter unter vielen Ansätzen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.