. German Research Center for Artificial Intelligence GmbH


Persistent Bibliographic Information Record
s0944-7822-26

André (1988)


Bibliographic Reference:

E. André.

Generierung natürlichsprachlicher Äußerungen zur simultanen Beschreibung von zeitveränderlichen Szenen: Das System SOCCER. Memo 26, Universität des Saarlandes, SFB 314 (VITRA), Saarbrücken, 1988.

Description:

Nachdem die beiden Teilgebiete Bild- und Sprachverstehen in der Künstlichen Intelligenz lange nahezu unabhängig voneinander behandelt wurden, gewinnt die Entwicklung wissensbasierter Systeme zur Integration von maschinellem Sehen und der Generierung natürlicher Sprache zunehmend an Bedeutung.

Die Ergebnisse eines bildverstehenden Systems sind für den Menschen oft nur schwer verständlich und aufgrund ihres Umfang kaum zu bewältigen. Natürliche Sprache bietet die Möglichkeit, komplexe visuelle Information sprachlich zu verdichten und dadurch besser zugänglich zu machen. Der Detaillierungsgrad einer Beschreibung kann dabei durch die Wahl entsprechender sprachlicher Konzepte beeinflußt werden. Beispielsweise könnte eine Fußballszene global durch 'Angriff der Borussen' oder aber detailliert durch Aufzählung sämtlicher Teilaktionen beschrieben werden. Bei der Kopplung bildverstehender und sprachverstehender Systeme wird nun untersucht, wie visuelle Information in eine andere Darstellungsform, nämlich natürliche Sprache, überführt werden kann. Neben der Anpassung der Ergebnisse von Bildverarbeitungssystemen an menschliche Benutzer spielt in diesem Zusammenhang auch die Klärung von Grundfragen zur Beziehung zwischen Sprache und visueller Wahrnehmung eine wichtige Rolle.

Bisher wurden bei der Kopplung von bild- und sprachverstehenden Systemen nur Ansätze verfolgt, die eine retrospektive Beschreibung der Szenenfolge zum Ziel haben. Eine neue Problemstellung ergibt sich, wenn die natürlichsprachliche Beschreibung einer Szenenfolge simultan zum Szenenablauf erfolgen soll. Beispiele für Simultanbeschreibungen auf menschlicher Beobachtungsbasis sind Sportübertragungen aus Rundfunk und Fernsehen. Von praktischer Bedeutung können maschinell erzeugte Simultanbeschreibungen bei der Beobachtung und Steuerung komplexer technischer Prozesse sein, bei denen visuelle Information unmittelbar in eine an den Menschen angepaßtere Darstellungsform überführt werden muß. Dabei ist anzustreben, daß sich anbahnende Fehlleistungen oder Störungen eines technischen Prozesses nicht erst im nachhinein, sondern möglichst früh erkannt und beschrieben werden.

Ein System, das in Analogie zur simultanen Berichterstattung eine sukzessiv gegebene Szenenfolge analysieren und das aktuell erkannte Geschehen mittels Sprache beschreiben soll, wird sich von Systemen zur Erstellung einer natürlichsprachlichen A-posteriori-Beschreibung zeitveränderlicher Szenen vor allem in bezug auf die folgenden beiden Punkte unterscheiden:

Für die Prozesse, die darüber entscheiden, welche Information über die Szene in welcher Form mitgeteilt wird, ergeben sich hieraus unmittelbar die folgenden Konsequenzen:

  1. Die Planung sprachlicher Äußerungen kann sich immer nur auf einen zeitlich begrenzten Szenenausschnitt beziehen.
  2. Bereits getroffene Entscheidungen müssen unter Umständen zurückgenommen werden.
  3. Der genaue Inhalt einer Äußerung ergibt sich häufig erst während des Sprechens.

Die Koordination von Wahrnehmung und Sprachproduktion im Hinblick auf die Erzeugung simultaner Beschreibungen spielt eine zentrale Rolle bei der Entwicklung des Systems SOCCER. In SOCCER wird die Zielsetzung verfolgt, in Form von Bildfolgen gegebene Szenen aus Fußballspielen simultan zu deren Ablauf zu beschreiben. Die Diskurssituation ist dadurch gekennzeichnet, daß das Szenengeschehen einem Hörer mitgeteilt wird, der die Szene nicht selbst beobachten kann, wobei jedoch der statische Szenenhintergrund als prototypisch bekannt vorausgesetzt wird. Im Gegensatz zu realen Fußballreportagen sind die von SOCCER erzeugten Beschreibungen rein sachlich. D.h. es erfolgt keine Bewertung von Spielern, Mannschaften und Aktionen. Charakteristische Merkmale des Jargons der Fußballreportage (wie z.B. Metaphern oder Hyperbeln) bleiben unberücksichtigt. Desweiteren soll sich die Beschreibung ausschließlich auf das aktuelle Szenengeschehen beziehen. Rückgriffe auf vergangenes Geschehen sind derzeit nicht vorgesehen.

Der Schwerpunkt der vorliegenden Arbeit liegt auf den für die Sprachproduktion verantwortlichen Komponenten. Bei der Entwicklung von SOCCER wurden neben den aktuellen Forschungsarbeiten auf dem Gebiet der Generierung natürlicher Sprache auch Untersuchungen aus den Nachbardisziplinen Psychologie und Linguistik berücksichtigt.

*On-line Access:
Not available

*PBIR:
The unique LIDOS PBIR Identifier is s0944-7822-26
*URL:
This page is located at http://www.dfki.uni-sb.de/imedia/lidos/pbir/s0944-7822-26.html
*PURL:
Hyperlinks to this page should refer to http://purl.org/dfki/pbir/s0944-7822-26.html, the persistent URL of this bibliographic information record





Gerd Herzog
Last update: Sat Nov 23 15:17:08 MET 1996


Send comments to herzog@acm.org