Projekt | DiET

Laufzeit: 01.04.1997 - 31.03.1999

Diagnostic and Evaluation tools for Natural Language Applications

Eine systematische Qualitätsbestimmung von sprachtechnologischen Anwendungen wird oft durch den Mangel an geeignetem Testmaterial und Werkzeugen behindert. Im Projekt DiET wird deshalb eine umfassende Umgebung für die Konstruktion, Annotation und Pflege von strukturierten Referenzdaten für die Diagnose und Evaluierung von sprachtechnologischen Anwendungen entwickelt. Das System ist in einer konfigurierbaren, offenen Client/Server-Architektur entwickelt. Der Benutzer kann Daten konstruieren und manuell oder automatisch annotieren, indem er aus einer Menge von gegebenen Annotations- Datentypen auswählt, die mit allen notwendigen Funktionen assoziiert sind. Die umfangreichen strukturierten Testdaten repräsentieren linguistische Phänomene auf den Ebenen Morphologie, Syntax und Diskurs. Die Annotationen decken linguistische und anwendungsspezifische Aspekte ab, und unterstützen dadurch sowohl die Transparenz der Daten als auch den optimalen Zugriff. Für die Anpassung der Daten an neue Domänen werden dem Benutzer verschiedene Customisierungsmöglichkeiten geboten. So können durch einen Textprofiling-Prozess die kontrollierten Daten einer Testsuite mit entsprechenden Konstruktionen in domänenspezifischen Korpora in Verbindung gebracht werden. Mithilfe von Lexikalischen Ersetzungsfunktionen kann der Benutzer das Vokabular der Testitems an domänenspezifische Terminologie anpassen. Mithilfe der Datenbank kann der Benutzer Ergebnisse verschiedener Test- und Evaluierungszyklen speichern und verwalten.

Umgebung für die Erstellung und Annotation von Referenz und Testdaten
Freie Konfiguration von Annotationstypen mit assoziierten und vorgegebenen Editier-, Display und Speicherfunktionen
Offene Client/Server Architektur für flexible Systemkonfiguration und Integration
Anpassung von Daten an neue Domänen und Anwendungen durch Lexikalische Ersetzung und Textprofiling zur Verbindung von strukturierten Daten und Korpora
Systematische und kontrollierte Konstruktion von Testdaten in drei Sprachen (Deutsch, Englisch und Französisch)