Antworten:
Sieht kostenlos aus, habe es einfach ausprobiert und es funktioniert gut für mich.
Google Text & Tabellen testet jetzt eine neue API-Funktion, die OCR (Optical Character Recognition) für Bilder und PDFs verwendet.
Vom Google-Betriebssystem :
Die Google Text & Tabellen-API testet eine neue Funktion, mit der Sie OCR (optische Zeichenerkennung) für ein Bild ausführen können. Es gibt eine Live-Demo, die diese Funktion veranschaulicht : Sie können ein hochauflösendes JPG-, GIF- oder PNG-Bild mit weniger als 10 MB hochladen. Google Text & Tabellen extrahiert den Text und konvertiert ihn in ein neues Dokument. Google erwähnt, dass "der Vorgang derzeit bis zu 40 Sekunden dauern kann", und ein kleiner Test ergab, dass der Dienst noch nicht zuverlässig ist: Er ist langsam und gibt häufig Fehler zurück.
Die Ergebnisse sind alles andere als perfekt und Sie werden viele Fehler finden, aber der Service ist kostenlos und wird ständig verbessert. Hier ist das Ergebnis der Texterkennung für dieses gescannte Dokument :
Ein Google Docs-Dokument kann in verschiedenen Formaten exportiert werden, darunter HTML, OpenOffice und Word:
Laut meiner Antwort auf SO to kennt jemand eine Möglichkeit, ein PDF-Dokument programmgesteuert in ein docx-Format zu konvertieren :
Konvertieren Sie PDF in SVG (Ghostscript wird es tun) und importieren Sie das ...
... während Word PDF nicht einbettet, wird SVG eingebettet.
Verwenden Sie ein Programm zur optischen Zeichenerkennung, z. B. Omnipage Pro . Es unterstützt PDF als Dokumenteingabe und Word als Ausgabe.
Sie können auch OCRTerminal ausprobieren, das einen kostenlosen Service für 20 Seiten pro Monat bietet. Sie haben einen Beta-Desktop-Client, der auf Einladung zur Verfügung zu stehen scheint (Sie müssen ihn kontaktieren und Interesse bekunden).