Skip to main content Skip to main navigation

Projekt

TG/2

Praxisnahe Generierung natürlichsprachlicher Texte

Praxisnahe Generierung natürlichsprachlicher Texte

  • Laufzeit:

Dynamisch erzeugte Texte werden für zahlreiche intelligente Anwendungen für Information und Kommunikation benötigt. Viele solcher Anwendungen - etwa Berichte über Börsenentwicklungen, Wetterberichte, Reaktionen auf Terminvorschläge - verwenden gleichbleibende Formulierungen, in denen nur eine begrenzte Menge von Parametern instantiiert werden. In Terminabsprachen etwa sind grundlegende Sprechakte Vorschlagen, Annehmen, Zurückweisen von Terminen oder Unterbreiten von Gegenvorschlägen. Berichte von Umweltbehörden über die Luftqualität beschreiben hauptsächlich in verdichteter Form Zeitreihen oder Genzwertüberschreitungen.

Diese Anwendungen erlauben es im Vorhinein, die zu erzeugenden Texte strukturell vollständig zu beschreiben. Dadurch kann auf aufwendige Textplanungs- und Schlussfolgerungskomponenten verzichtet werden, die gewöhnlich für die Generierung qualitativ hochwertiger, gut lesbarer Texte unentbehrlich sind. Es ist sinnvoll und naheliegend, das Problem mit einem leichter handhabbaren Ansatz zu lösen.

Für genau solche Klassen von Anwendungen bietet TG/2 eine kommerziell erprobte Lösung an. TG/2 kann mit unterschiedlichen Eingaberepräsentationen umgehen. Flache Eingabestrukturen, wie etwa Listen von domänenspezifischen Attribut-Wert-Paaren, können ebenso verarbeitet werden wie komplex strukturierte Satzsemantikdarstellungen in logischer Form.

TG/2 steht für eine flexible Generation von Template-Generatoren. Das System ist als klassisches Produktionensystem aufgebaut, wobei die Generierungsregeln von ihrem Interpreter getrennt kodiert sind. Generierungsregeln sind als Bedingungs-Aktions-Paare definiert. Sie können nicht nur Templates kodieren sondern auch kontextfreie Regeln mithilfe von Kategoriesymbolen. Die Integration dieser Regeltypen in einem einheitlichen Formalismus ermöglicht die flache Modellierung von Sprache, wo dies genügt, erlaubt aber auch feinere Modellierung sprachlicher Phänomene, wo dies notwendig ist. Der Interpreter besteht aus dem wohlbekannten dreistufigen Verarbeitungszyklus:

  • bestimme die Menge der anwendbaren Regeln,
  • wähle eine daraus aus und
  • wende sie an.

Indem man Regeln für mehrere Sprachen simultan erstellt, erhält man unmittelbar eine multilinguale Generierung. Das Regelsystem für eine weitere Sprache erfordert nur einen Bruchteil des Aufwands des Primärsystems, da die Zuordnung zu Elementen der Eingabstruktur großteils übernommen werden kann.

TG/2 ist in Allegro Common Lisp implementiert und auf Linux- und PC-Plattformen ablauffähig.

  • TG/2 bietet für begrenzte Subsprachen Generierungslösungen, die auf die jeweilige Aufgabe und Domäne abgestimmt sind;
  • TG/2 kann innerhalb kürzester Zeit an neue Aufgaben angepasst werden (durchschnittlicher Aufwand etwa zwei Personmonate);
  • TG/2 kann besonders einfach mit tiefen Generierungsverfahren gekoppelt werden;
  • TG/2 integriert vorgefertigte Textteile, Templates und kontextfreie Regeln in einem einheitlichen Formalismus
  • TG/2 verwendet einmal erzeugte Textteile effizient wieder, um alternative Formulierungen zu generieren;
  • TG/2 ist parameterisierbar, so dass die bevorzugte Formulierung zuerst erzeugt wird (in Bezug auf Stil, Grammatik, Rhetorik usw.).

Publikationen zum Projekt

Stephan Busemann; Tim vor der Brück

In: Zeitschrift für Sprachwissenschaft, Vol. 26, No. 2, Pages 291-315, de Gruyter, 2007.

Zur Publikation