Skip to main content Skip to main navigation

Projekt

OCRopus

OCRopus document analysis and OCR system

OCRopus document analysis and OCR system

  • Laufzeit:

Die Arbeitsgruppe Bildverstehen und Mustererkennung entwickelt derzeit OCRopus, das Open Source System zur Texterkennung der nächsten Generation. OCRopus wird von Google Inc. unterstützt und wird unter anderem für die Google Buchsuche verwendet werden, um eine sehr große Anzahl von Büchern digital verfügbar und durchsuchbar zu machen.

Zusätzlich zur Digitalisierung von Dokumenten im industriellen Umfang bestehen viele weitere Möglichkeiten zum Einsatz von OCRopus. So kann das Basissystem als kostenlose Desktop-Anwendung im geschäftlichen wie im privaten Umfeld verwendet werden, um beispielsweise eingescannte Dokumente oder jedes andere Bild, das Text enthält, in editierbaren Text umzuwandeln. Außerdem kann mit screenOcropus Text aus einem beliebigen Bereich des Bildschirms extrahiert werden.

OCRopus stellt den aktuellen Stand der Forschung im Bereich OCR (Optical Character Recognition) dar und vereint modernste Methoden der Bildverarbeitung, Layout Analyse, Mustererkennung und statistischen Sprachmodellierung.

Jede Komponente des modularen Systems, angefangen von der Vorverarbeitung der Eingabe bis hin zur Darstellung der OCR-Ergebnisse, ist dank intelligenter Schnittstellen konfigurierbar und austauschbar. Diese Flexibilität und das gewählte Lizenzmodell (Apache 2 Lizenz) eröffnen auch Wege für spezielle Lösungen zum kommerziellen Einsatz von OCRopus.

Fördergeber

Google Inc.