Publikation

Entwurf einer Patternbeschreibungssprache für die Informationsextraktion in der Dokumentanalyse

Claudia Wenzel, Markus Junker

DFKI DFKI Documents (D) 97-04 1997.

Abstrakt

Dokumentanalyse befaßt sich mit der Extraktion von relevanten Informationen aus Dokumenten, die in Papierform vorliegen. Um die gewünschten Informationen in einem Text zu finden, können verschiedene Techniken angewendet werden. Sie reichen von einfachen Suchverfahren hin zum Versuch des vollständigen Parsens eines Textes. Häufig stammen diese Techniken aus dem Bereich der NLP, wo sie zur Verarbeitung von elektronischen Texten eingesetzt werden. Unabhängig von der eingesetzten Technik benötigt man jedoch immer eine Sprache, mit der die Syntax und die Semantik der gesuchten Informationen beschrieben werden können. In die sem Dokument wird eine solche Sprache vorgestellt, die insbesondere den Erfordernissen der Dokumentanalyse Rechnung trägt, aber allerdings auch für die Verarbeitung elektronischer Texte genutzt werden kann. Derzeit wird die Sprache zur Informationsextraktion in und zur Klassifikation von deutschen Geschäftsbriefen eingesetzt.

D-97-04.pdf (pdf, 119 KB )

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence