DFKI-LT - Standardisierungsarbeit für Sprachressourcen bei DIN (NAT AA 6)

Thierry Declerck, Thorsten Trippel, Ulrich Heid
Standardisierungsarbeit für Sprachressourcen bei DIN (NAT AA 6)
1 2/2006
 
Wir berichten über internationale Normungsarbeit im Bereich von Sprachressourcen. Die Normen werden von internationalen Arbeitsgruppen im Rahmen der International Organization for Standardization (ISO), entwickelt und jeweils national von entsprechenden Gruppen, in Deutschland koordiniert vom Deutschen Institut für Normung (DIN), begleitet und diskutiert.

Für die automatische Sprachverarbeitung besteht seit Jahren zunehmend Bedarf an elektronischen Ressourcen: Lexika, Korpora, Grammatiken, Annotationskonventionen, Sprachdatensammlungen, usw. Damit solche Ressourcen über einen einzelnen Anwendungskontext hinaus wiederverwertbar sind und zwischen Arbeitsgruppen ausgetauscht werden können, wird an einer Normung ihrer Repräsentationsformate und der zur Beschreibung von Ressourceninhalten benutzbaren Vokabularien (Datenkategorien) gearbeitet.

Waren in der Vergangenheit Standardisierungsbemühungen auf bestimmte Ausschnitte aus dem Spektrum der linguistischen Beschreibungen von Ressourcen beschränkt (z.B. die EU-Projekte SAM im Bereich gesprochener Sprache, EAGLES und ISLE im Bereich von Morphosyntax, Syntax, lexikalischer Semantik in Texten und Lexika und Sprachtechnologie), so ist die Zielsetzung der 2002 und 2003 gegründeten ISO (TC 37 SC 4) bzw. DIN (NAT AA 6) Arbeitsgruppen breiter: es geht zum Beispiel um Metarichtlinien für die Repräsentation und Annotation von Texten ebenso wie um Datenkategorien für Lexika, morphologische und morphosyntaktische, syntaktische Analyse.

Wir zeigen in diesem Poster den aktuellen Stand der Normungsdiskussion, wobei auch den Weg zu einer ISO Norm beschrieben wird. Das Poster soll auch als Einladung an Experten in Deutschland verstanden werden, sich in die Diskussion um Normen einzubringen.

A. Abeillé, S. Hansen-Schirra, and H. Uszkoreit, editors. 2003. Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-03), Budapest. Sue Atkins, Nuria Bel, Francesca Bertagna, Pierrette Bouillon, Nicoletta Calzolari, Christiane Fellbaum, Ralph Grishman, Alessandro Lenci, Catherine MacLeod, Martha Palmer, Gregor Thurmair, Marta Villegas, and Antonio Zampolli. 2002. From resources to applications. Designing the multilingual ISLE lexical entry. In LREC 2002, pages 687_693, Las Palmas de Gran Canaria. Sue Atkins, Nuria Bel, Pierrette Bouillon, Thatsanee Charoenporn, Dafydd Gibbon, Ralph Grishman, Chu-Ren Huang, Asanee Kawtrakul, Nancy Ide, Hae-Yun Lee, Paul J. K. Li, Jock McNaught, Jan Odijk, Martha Palmer, Valeria Quochi, Ruth Reeves, Dipti Misra Sharma,Virach Sornlertlamvanich, Takenobu Tokunaga, Gregor Thurmair, Marta Villegas, Antonio Zampolli, and Elizabeth Zeiton. 2003. Standards and best practice for multilingual computational lexicons and MILE (the multilingual ISLE lexical entry). Deliverable D2.2-D3.2 ISLE computational lexicon working group, International Standards for Language Engineering (ISLE), Pisa.

Das ISLE/EAGLES Projekt: http://www.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm
ISO TC37/SC4 on Language Resources Management: http://www.tc37sc4.org/
DIN Normenausschuss Terminologie (NAT): http://www.nat.din.de/index.php?lang=de&na_id=nat
Das LIRICS Projekt: http://lirics.loria.fr/
 
Files: BibTeX