DFKI-LT - WHITEBOARD

Multilevel Annotation for Dynamic Free Text Processing

Logo: WHITEBOARD

Ziel ist die Entwicklung, Implementation und Evaluation einer neuartigen Systemarchitektur, die die Kombination verschiedener Sprachtechnologien für eine Reihe praktischer Anwendungen erlaubt. Sprachtechnologien bieten verschiedenartige Möglichkeiten für eine partielle Analyse von Texten, die für Information Retrieval, Information Extraction, Language Checking und viele weitere Anwendungen genutzt werden können. Die Verarbeitungsmethoden und -werkzeuge unterscheiden sich auf vielerlei Dimensionen, zum Beispiel bezüglich der Ebenen linguistischer Beschreibung, der Tiefe der Analyse oder der Art, in der Wissen abgeleitet wird (linguistisch oder statistisch). Die Funktionalität der Methoden ist häufig überlappend, sie unterscheiden sich jedoch in ihren Stärken und Schwächen. Eine der schwierigsten Aufgaben der Sprachverarbeitung ist die Suche nach optimalen Kombinationen heterogener Techniken und Verarbeitungskomponenten - die Herausforderung für das Whiteboard-Projekt. Die neue Architektur, die entwickelt und untersucht wird, basiert auf dem Konzept eines annotierten Textes. Die verschiedenen LT-Komponenten reichern einen mit XML annotierten Text mit Meta-Information, die ebenfalls in XML kodiert ist, an. Jede Komponente kann vorher zugewiesene Annotationen nutzen oder unbeachtet lassen. Die WHITEBOARD-Architektur besteht aus einer einzigen geteilten Datenstruktur, die gleichzeitig Input, Zwischenrepräsentation und Output des Systems ist. Die beabsichtigte Architektur ermöglicht die pragmatische Kombination verschiedener Verarbeitungsansätze, wobei neue Wege der Kombination flacher und tiefer Verarbeitungsmethoden aufgezeigt werden.

Funded by:Bundesministerium für Bildung und Forschung
Project Manager:Hans Uszkoreit (Hans.Uszkoreit@dfki.de)
Contact:Günter Neumann (Guenter.Neumann@dfki.de)
Duration: 2000 - 2002
URL:http://www.dfki.de/pas/f2w.cgi?ltc/whiteboard-e
Partners:GermanyDFKI