Projekt | WHITEBOARD

Laufzeit: 01.01.2000 - 31.12.2002

Multilevel Annotation for Dynamic Free Text Processing

Ziel ist die Entwicklung, Implementation und Evaluation einer neuartigen Systemarchitektur, die die Kombination verschiedener Sprachtechnologien für eine Reihe praktischer Anwendungen erlaubt. Sprachtechnologien bieten verschiedenartige Möglichkeiten für eine partielle Analyse von Texten, die für Information Retrieval, Information Extraction, Language Checking und viele weitere Anwendungen genutzt werden können. Die Verarbeitungsmethoden und -werkzeuge unterscheiden sich auf vielerlei Dimensionen, zum Beispiel bezüglich der Ebenen linguistischer Beschreibung, der Tiefe der Analyse oder der Art, in der Wissen abgeleitet wird (linguistisch oder statistisch). Die Funktionalität der Methoden ist häufig überlappend, sie unterscheiden sich jedoch in ihren Stärken und Schwächen. Eine der schwierigsten Aufgaben der Sprachverarbeitung ist die Suche nach optimalen Kombinationen heterogener Techniken und Verarbeitungskomponenten - die Herausforderung für das Whiteboard-Projekt. Die neue Architektur, die entwickelt und untersucht wird, basiert auf dem Konzept eines annotierten Textes. Die verschiedenen LT-Komponenten reichern einen mit XML annotierten Text mit Meta-Information, die ebenfalls in XML kodiert ist, an. Jede Komponente kann vorher zugewiesene Annotationen nutzen oder unbeachtet lassen. Die WHITEBOARD-Architektur besteht aus einer einzigen geteilten Datenstruktur, die gleichzeitig Input, Zwischenrepräsentation und Output des Systems ist. Die beabsichtigte Architektur ermöglicht die pragmatische Kombination verschiedener Verarbeitungsansätze, wobei neue Wege der Kombination flacher und tiefer Verarbeitungsmethoden aufgezeigt werden.

WHITEBOARD wird auf existierenden Komponenten des DFKI-LT aufbauen: Das morphologische Verarbeitungssystem Morphix, die Tagger und Phrasen-Parser TnT und Chunkie, das Information Extraction System SMES, das effiziente HPSG Parsing-System PET, HPSG-Grammatiken für Deutsch, Englisch (Standfords Lingo Grammatik) und Japanisch, das System FLAG für Controlled Language Checking.
Zwei Anwendungen werden zum Zweck der Evaluation und Demonstration der Ergebnisse realisiert. Eine dieser Anwendungen ist Information Extraction. Da das automatische Verstehen ganzer Texte für absehbare Zeit nicht erreichbar zu sein scheint, ist die Strategie eine graduelle Erweiterung unserer IE-Technologie.
Die zweite Anwendung ist Controlled Language Checking. Auch hier können wir von der heutigen Technologie keine vollständige und korrekte Analyse eines gesamten Texts erwarten. Wir könnten allerdings in der Lage sein, unsere tiefe Analyse in der Art zu spezialisieren, daß sie in bestimmten Umgebungen, die für die korrekte Diagnose und Korrektur von Fehlern relevant sind, mit ausreichender Präzision eingesetzt werden kann.

Kontakt

Prof. Dr. Günter Neumann

Guenter.Neumann@dfki.de

Keyfacts

Publikationen

Alle Publikationen

Integrating Natural Language Processing Components with XML and XSLT
Ulrich Schäfer
ISBN 9783836490276, VDM Verlag Dr. Müller, Saarbrücken, 4/2008.
Bootstrapping Relation Extraction from Semantic Seeds
Feiyu Xu
PhD-Thesis, Saarland University, 2007.
A Bag of Useful Techniques for Unification-Based Finite-State Transducers
Hans-Ulrich Krieger; Witold Drozdzynski; Jakub Piskorski; Ulrich Schäfer; Feiyu Xu
In: Proceedings of 7th KONVENS. Konferenz zur Verarbeitung natürlicher Sprache (KONVENS), Vienna, Pages 105-112, 9/2004.

Projekt | WHITEBOARD

Multilevel Annotation for Dynamic Free Text Processing

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Webseite

Publikationen

Integrating Natural Language Processing Components with XML and XSLT

Bootstrapping Relation Extraction from Semantic Seeds

A Bag of Useful Techniques for Unification-Based Finite-State Transducers

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

Projekt teilen auf:

Kontakt

Keyfacts

Beteiligte Forschungsbereiche

Leitung

Webseite

Integrating Natural Language Processing Components with XML and XSLT

Bootstrapping Relation Extraction from Semantic Seeds

A Bag of Useful Techniques for Unification-Based Finite-State Transducers

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung