Projekt

PARADIME

Intelligent Extraction of Information from On-line Documents

Intelligent Extraction of Information from On-line Documents

  • Laufzeit:

Mit der rasanten Verbreitung des Internet tritt das Problem der Informationsüberflutung immer stärker in den Vordergrund: je mehr Online-Texte zur Verfügung stehen, desto schwieriger wird es, das Informationspotential gezielt zu nutzen, d.h. relevante Informationen zu finden, zu extrahieren und in kompakter, schnell zu erfassender Form darzustellen.

Im Projekt ParaDime wird mit dem Saarbrücker Informationsextraktionssystem SMES ein intelligentes System zur zielgerichteten Extraktion von Informationen speziell aus deutschsprachigen online Dokumenten (Pressemitteilungen, Wirtschaftsberichten, technischen Beschreibungen) entwickelt. Es werden innovative Sprachtechnologien eingesetzt, um auch komplexe Sachverhalte zu extrahieren und in kompakter Form darzustellen. Diese neuartigen Verfahren unterstützen die inhaltliche Suche und Indizierung und ermöglichen das Extrahieren solch komplexer Informationen wie die Umsatz- und Gewinnentwicklung einzelner Unternehmen aus aktuellen Berichten der Online-Medien. Um mit dem sich laufend verändernden Tagesgeschehen Schritt zu halten, werden Verfahren des maschinellen Lernens zur automatischen Konfiguration und Anpassung von SMES für neue Aufgabengebiete eingesetzt.

  • SMES ist ein leistungsfähiges Kernsystem zur intelligenten Informationsextraktion aus deutschen Texten. Der Prototyp SMES wird bereits erfolgreich in wissenschaftlichen und industriellen Projekten eingesetzt.
  • SMES verwaltet sehr große Sprachwissensquellen (u.a. Lexikon von über 120.000 Stammeinträgen, sehr umfangreiche Spezialgrammatiken) und verfügt über sehr schnelle und robuste natürlichsprachliche Komponenten.
  • SMES ist trainierbar und konfiguierbar für neue Aufgabenbereiche durch maschinelle Lernverfahren, sowie parametrisierbar für verschiedene Textlängen und Informationsanforderungen.
  • SMES integriert graphische Visualisierungstechniken, Serverarchitektur, Internetanbindung

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence