Forschungsprojekt

SmartKom - Multimodale dialogische Mensch-Technik-Interaktion

Was ist SmartKom?

Der Bedarf an immer intuitiveren und effizienteren Benutzerschnittstellen nimmt stĂ€ndig zu ? insbesondere fĂŒr Anwender mit begrenzter technischer Praxis oder Menschen mit körperlichen BeeintrĂ€chtigungen bzw. in mobilen oder zeitkritischen Situationen. SmartKom ist ein multimodales Dialogsystem, das Sprache, Gestik und Mimik sowohl auf der Eingabeseite als auch auf der Ausgabeseite kombiniert. Das Verstehen von Spontansprache wird hier mit dem videobasierten Erkennen von natĂŒrlichen Gesten verknĂŒpft. SmartKom unterstĂŒtzt das situative Verstehen von ungenauen, mehrdeutigen oder unvollstĂ€ndigen Eingaben, aber auch die Generierung von koordinierten, zusammenhĂ€ngenden und sich ergĂ€nzenden Ausgaben. SmartKom erstellt und verarbeitet explizite ReprĂ€sentationen des Benutzermodells, der DomĂ€ne, der Aufgabe, des Kontextes und des Mediums selbst. Eines der wissenschaftlichen Ziele von SmartKom ist es, neue Methoden fĂŒr eine nahtlose Integration und wechselseitige BegriffsklĂ€rung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene zu entwickeln.

Die Ziele von SmartKom

SmartKom nutzt eines der Hauptmerkmale menschlicher VerstĂ€ndigung: Den koordinierten Gebrauch verschiedener Code-Systeme wie Sprache, Gestik und Mimik in komplexen Kommunikationssituationen. SmartKom verwendet dabei einen multimodalen Ansatz, um einen intuiven Zugang zu wissensintensiven Diensten zu erlauben. SmartKom verbindet drei verschiedene Paradigmen von Benutzerschnittstellen ? gesprochene Sprache, grafische OberflĂ€chen und gestische Interaktion ? um echte multimodale Kommunikation zu erreichen. Die natĂŒrlichsprachliche Interaktion in SmartKom basiert auf einer sprecherunabhĂ€ngigen sprachverstehenden Technologie. FĂŒr die grafische Benutzerschnittstelle und die Gestenerkennung benutzt SmartKom nicht die herkömmliche WIMP-Schnittstelle (windows, icons, menus, pointer), sondern unterstĂŒtzt den natĂŒrlichen Einsatz von Gestik. Das SmartKom Interaktions-Modell bricht radikal mit der klassischen Desktop-Metapher. Das multimodale System basiert auf dem situierten, aufgabenorientierten Dialog-Paradigma (SDDP): Der Benutzer delegiert eine Aufgabe an einen virtuellen Kommunikationsassistenten, der grafisch dargestellt wird. Bei komplexeren Aufgaben kann diese Delegierung nicht mit einem einfachen Command-and-Control-Ansatz bewĂ€ltigt werden. In einem gemeinschaftlichen Dialog zwischen Mensch und System, das durch einen Life-like Character reprĂ€sentiert wird, werden Spezifikationen der gestellten Aufgabe und mögliche Vorgehensweisen erarbeitet. Im Gegensatz zu aufgabenorientierten Dialogen, in denen der Benutzer die Aufgabenstellung mit Hilfe des Systems bewĂ€ltigt, delegiert der Benutzer beim SDDP-Ansatz die Aufgabe an den Agenten und hilft diesem ? wenn nötig ? bei der AusfĂŒhrung der Aufgabe.

SmartKom in der Praxis

Drei Anwendungsszenarien von SmartKom wurden definiert:

  1. SmartKom-Public ist ein multimodaler Kommunikationskiosk fĂŒr FlughĂ€fen, Bahnhöfe oder andere öffentliche PlĂ€tze, an denen Menschen z.B. nach Touristik-Informationen suchen. Gleichzeitig haben Benutzer breitbandigen Zugriff auf personalisierte Standard-Anwendungen.
  2. SmartKom-Mobile benutzt einen PDA als AusgabegerĂ€t. Dieses kann in Kombination mit einem Autonavigationssystem genutzt oder von einem FußgĂ€nger mitgefĂŒhrt werden. ZusĂ€tzliche Dienste wie Routenplanung und interaktive Stadt-Navigation können mit Hilfe von GPS genutzt werden.
  3. SmartKom-Home ist ein multimodales Portal fĂŒr Informationen und Services. Es stellt einen elektronischen TV-ProgrammfĂŒhrer (EPG) zur VerfĂŒgung, es steuert GerĂ€te der Unterhaltungselektronik wie z.B. Videorecorder und ermöglicht die Nutzung von Standardanwendungen wie Telefonie und E-mail. Das System wird zu Hause mit Hilfe eines portablen Webpads gesteuert. Der Anwender kann SmartKom-Home sowohl arbeitsintensiv, mit Hilfe koordinierter Sprach-Gestik-Interaktion, als auch in einer entspannten Freizeitsituation nur durch Sprache bedienen.

Die SchlĂŒssel-Merkmale des Demonstrators

Der voll funktionsfĂ€hige SmartKom-Demonstrator, der im Juni 2003 vorgestellt wurde, erlaubt dem Benutzer die Verwendung von Spontansprache und Zeigegesten. SmartKom reagiert mit koordinierter Ausgabe von Sprache, Gestik, Grafik und Mimik des Life-like Characters. Über dem Demonstrator ist ein LCD-Projektor und eine Gestenerkennungseinheit (SIVIT) angebracht. Grafische Ausgaben werden auf eine horizontal angebrachte FlĂ€che projiziert. Der Benutzer steht vor diesem virtuellen Touch- Screen. Er kann seine HĂ€nde und Finger nutzen, um auf dargestellte Objekte zu zeigen. Es ist nicht nötig, die ProjektionsflĂ€che zu berĂŒhren, da die Gestenerkennungseinheit die Position der HĂ€nde und Finger des Benutzers erfasst. Die Stimmung des Benutzers wird durch die Interpretation des Gesichtsausdrucks sowie der Satzmelodie eingeschĂ€tzt. Der Demonstrator verfĂŒgt ĂŒber neun Beispielanwendungen mit annĂ€hernd 50 Funktionen.

Die Arbeitsweise von SmartKom

SmartKom basiert auf einer multi-blackboard Architektur mit parallel verarbeitenden Threads, die ein hohes Maß an FlexibilitĂ€t erlauben. Das System lĂ€uft auf drei Doppelprozessor Pentium-Rechnern unter Windows 2000 oder Linux. Alle Module wie z.B. die Medienfusion und das Mediendesign werden als separate Prozesse auf verteilten Rechnern realisiert. Die Module sind in C, C++, Java oder Prolog implementiert. Eine SchlĂŒsselentscheidung war die Entwicklung von M3L, einer xmlbasierten Markup-Language fĂŒr die ReprĂ€sentation des Informationsaustausches zwischen den verschiedenen Verarbeitungsmodulen von SmartKom. So sind z.B. der Worthypothesengraph, der Gestenhypothesengraph, die Ergebnisse der Medienfusion, der PrĂ€sentationsplan und die Diskursmodellierung in M3L reprĂ€sentiert. M3L wurde entwickelt fĂŒr die ReprĂ€sentation und den Austausch komplexer, multimodaler Inhalte, Informationen ĂŒber die Segmentierung und Synchronisation sowie Informationen ĂŒber die ZuverlĂ€ssigkeit der Verarbeitungsresultate. FĂŒr jeden Kommunikationsknoten wurden XML-Schemata definiert, die ein automatisches ÜberprĂŒfen der Daten wĂ€hrend des Austausches ermöglichen. Die Komponente zur Medienfusion kombiniert die Ausgabe der Sprachund Gestenanalyse. Das Resultat wird an die Intentionserkennung ĂŒbergeben und mit Diskurs- und Weltwissen angereichert. Der Aktionsplaner initiiert eine der erkannten Intention des Benutzers entsprechende Reaktion. Falls notwendig werden ĂŒber das Interface der Funktionsmodellierung externe Dienste kontaktiert. Schließlich wird der PrĂ€sentationsplaner aufgerufen, um die adĂ€quaten AusgabemodalitĂ€ten auszuwĂ€hlen. Der PrĂ€sentationsplaner aktiviert den Sprachgenerator und die Sprachsynthese. Die Interaktion des Benutzers mit dem Life-like Character des situierten, aufgabenorientierten Dialog-Paradigma (SDDP) erfordert die Synchronisation der AusgabemodalitĂ€ten, um KohĂ€renz und natĂŒrliche Kommunikation sicherzustellen. Ein Beispiel hierfĂŒr ist die Synchronisation der Lippenbewegung mit dem Sprachsignal.

Herausragende Merkmale von SmartKom

  • Nahtlose Integration und wechselseitige Disambiguierung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene
  • Situiertes Verstehen von möglicherweise ungenauen, mehrdeutigen oder unvollstĂ€ndigen Eingaben
  • Kontextsensitive Interpretation des Dialogfortschritts auf Basis dynamischer Diskurs- und Kontextmodelle
  • Adaptive Generierung von koordinierten, zusammenhĂ€ngenden und sich ergĂ€nzenden multimodalen PrĂ€sentationen
  • Halb- oder vollautomatische VervollstĂ€ndigung von Benutzeranfragen durch die Integration von Informationsdiensten
  • Intuitive Personifizierung des Systems durch einen PrĂ€sentationsagenten

Ergebnisse von SmartKom

Wissenschaftliche Resultate:

  • Publikationen: 255
  • abgeschlossene Diplomarbeiten, Promotionen und Habilitationen: 66
  • Berufungen an Hochschulen: 6

Wirtschaftliche Resultate:

  • 52 Patentanmeldungen
  • 29 Spin-off-Produkte
  • 6 Spin-off-Unternehmen

?Smartkom ist damit das erfolgreichste aller seit 1998 gestarteten 29 Leitprojekte des BMBF.? Dr. Bernd Reuse, Referatsleiter Softwaresysteme Bundesministerium fĂŒr Bildung und Forschung

Kontakt

Ansprechpartner: Dr. Anselm Blocher
Projektleitung: Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster
Homepage: http://www.smartkom.org/

Weitere Dokumente

Beteiligte Forschungsbereiche

Publikationen

  • 2003
  • 2001