DFKI-LT - TG/2

Praxisnahe Generierung natürlichsprachlicher Texte

Logo: TG/2

Dynamisch erzeugte Texte werden für zahlreiche intelligente Anwendungen für Information und Kommunikation benötigt. Viele solcher Anwendungen - etwa Berichte über Börsenentwicklungen, Wetterberichte, Reaktionen auf Terminvorschläge - verwenden gleichbleibende Formulierungen, in denen nur eine begrenzte Menge von Parametern instantiiert werden. In Terminabsprachen etwa sind grundlegende Sprechakte Vorschlagen, Annehmen, Zurückweisen von Terminen oder Unterbreiten von Gegenvorschlägen. Berichte von Umweltbehörden über die Luftqualität beschreiben hauptsächlich in verdichteter Form Zeitreihen oder Genzwertüberschreitungen.

Diese Anwendungen erlauben es im Vorhinein, die zu erzeugenden Texte strukturell vollständig zu beschreiben. Dadurch kann auf aufwendige Textplanungs- und Schlussfolgerungskomponenten verzichtet werden, die gewöhnlich für die Generierung qualitativ hochwertiger, gut lesbarer Texte unentbehrlich sind. Es ist sinnvoll und naheliegend, das Problem mit einem leichter handhabbaren Ansatz zu lösen.

Für genau solche Klassen von Anwendungen bietet TG/2 eine kommerziell erprobte Lösung an. TG/2 kann mit unterschiedlichen Eingaberepräsentationen umgehen. Flache Eingabestrukturen, wie etwa Listen von domänenspezifischen Attribut-Wert-Paaren, können ebenso verarbeitet werden wie komplex strukturierte Satzsemantikdarstellungen in logischer Form.

TG/2 steht für eine flexible Generation von Template-Generatoren. Das System ist als klassisches Produktionensystem aufgebaut, wobei die Generierungsregeln von ihrem Interpreter getrennt kodiert sind. Generierungsregeln sind als Bedingungs-Aktions-Paare definiert. Sie können nicht nur Templates kodieren sondern auch kontextfreie Regeln mithilfe von Kategoriesymbolen. Die Integration dieser Regeltypen in einem einheitlichen Formalismus ermöglicht die flache Modellierung von Sprache, wo dies genügt, erlaubt aber auch feinere Modellierung sprachlicher Phänomene, wo dies notwendig ist. Der Interpreter besteht aus dem wohlbekannten dreistufigen Verarbeitungszyklus:

Indem man Regeln für mehrere Sprachen simultan erstellt, erhält man unmittelbar eine multilinguale Generierung. Das Regelsystem für eine weitere Sprache erfordert nur einen Bruchteil des Aufwands des Primärsystems, da die Zuordnung zu Elementen der Eingabstruktur großteils übernommen werden kann.

TG/2 ist in Allegro Common Lisp implementiert und auf Linux- und PC-Plattformen ablauffähig.

Project Manager:Stephan Busemann (Stephan.Busemann@dfki.de)
Contact:Stephan Busemann (Stephan.Busemann@dfki.de)
URL:http://www.dfki.de/~busemann/more-tg2.html
Partners:GermanyDFKI