Forschungsprojekt
SmartKom - Multimodale dialogische Mensch-Technik-Interaktion
Was ist SmartKom?
Der Bedarf an immer intuitiveren und effizienteren Benutzerschnittstellen nimmt stĂ€ndig zu ? insbesondere fĂŒr Anwender mit begrenzter technischer Praxis oder Menschen mit körperlichen BeeintrĂ€chtigungen bzw. in mobilen oder zeitkritischen Situationen. SmartKom ist ein multimodales Dialogsystem, das Sprache, Gestik und Mimik sowohl auf der Eingabeseite als auch auf der Ausgabeseite kombiniert. Das Verstehen von Spontansprache wird hier mit dem videobasierten Erkennen von natĂŒrlichen Gesten verknĂŒpft. SmartKom unterstĂŒtzt das situative Verstehen von ungenauen, mehrdeutigen oder unvollstĂ€ndigen Eingaben, aber auch die Generierung von koordinierten, zusammenhĂ€ngenden und sich ergĂ€nzenden Ausgaben. SmartKom erstellt und verarbeitet explizite ReprĂ€sentationen des Benutzermodells, der DomĂ€ne, der Aufgabe, des Kontextes und des Mediums selbst. Eines der wissenschaftlichen Ziele von SmartKom ist es, neue Methoden fĂŒr eine nahtlose Integration und wechselseitige BegriffsklĂ€rung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene zu entwickeln.
Die Ziele von SmartKom
SmartKom nutzt eines der Hauptmerkmale menschlicher VerstĂ€ndigung: Den koordinierten Gebrauch verschiedener Code-Systeme wie Sprache, Gestik und Mimik in komplexen Kommunikationssituationen. SmartKom verwendet dabei einen multimodalen Ansatz, um einen intuiven Zugang zu wissensintensiven Diensten zu erlauben. SmartKom verbindet drei verschiedene Paradigmen von Benutzerschnittstellen ? gesprochene Sprache, grafische OberflĂ€chen und gestische Interaktion ? um echte multimodale Kommunikation zu erreichen. Die natĂŒrlichsprachliche Interaktion in SmartKom basiert auf einer sprecherunabhĂ€ngigen sprachverstehenden Technologie. FĂŒr die grafische Benutzerschnittstelle und die Gestenerkennung benutzt SmartKom nicht die herkömmliche WIMP-Schnittstelle (windows, icons, menus, pointer), sondern unterstĂŒtzt den natĂŒrlichen Einsatz von Gestik. Das SmartKom Interaktions-Modell bricht radikal mit der klassischen Desktop-Metapher. Das multimodale System basiert auf dem situierten, aufgabenorientierten Dialog-Paradigma (SDDP): Der Benutzer delegiert eine Aufgabe an einen virtuellen Kommunikationsassistenten, der grafisch dargestellt wird. Bei komplexeren Aufgaben kann diese Delegierung nicht mit einem einfachen Command-and-Control-Ansatz bewĂ€ltigt werden. In einem gemeinschaftlichen Dialog zwischen Mensch und System, das durch einen Life-like Character reprĂ€sentiert wird, werden Spezifikationen der gestellten Aufgabe und mögliche Vorgehensweisen erarbeitet. Im Gegensatz zu aufgabenorientierten Dialogen, in denen der Benutzer die Aufgabenstellung mit Hilfe des Systems bewĂ€ltigt, delegiert der Benutzer beim SDDP-Ansatz die Aufgabe an den Agenten und hilft diesem ? wenn nötig ? bei der AusfĂŒhrung der Aufgabe.
SmartKom in der Praxis
Drei Anwendungsszenarien von SmartKom wurden definiert:
- SmartKom-Public ist ein multimodaler Kommunikationskiosk fĂŒr FlughĂ€fen, Bahnhöfe oder andere öffentliche PlĂ€tze, an denen Menschen z.B. nach Touristik-Informationen suchen. Gleichzeitig haben Benutzer breitbandigen Zugriff auf personalisierte Standard-Anwendungen.
- SmartKom-Mobile benutzt einen PDA als AusgabegerĂ€t. Dieses kann in Kombination mit einem Autonavigationssystem genutzt oder von einem FuĂgĂ€nger mitgefĂŒhrt werden. ZusĂ€tzliche Dienste wie Routenplanung und interaktive Stadt-Navigation können mit Hilfe von GPS genutzt werden.
- SmartKom-Home ist ein multimodales Portal fĂŒr Informationen und Services. Es stellt einen elektronischen TV-ProgrammfĂŒhrer (EPG) zur VerfĂŒgung, es steuert GerĂ€te der Unterhaltungselektronik wie z.B. Videorecorder und ermöglicht die Nutzung von Standardanwendungen wie Telefonie und E-mail. Das System wird zu Hause mit Hilfe eines portablen Webpads gesteuert. Der Anwender kann SmartKom-Home sowohl arbeitsintensiv, mit Hilfe koordinierter Sprach-Gestik-Interaktion, als auch in einer entspannten Freizeitsituation nur durch Sprache bedienen.
Die SchlĂŒssel-Merkmale des Demonstrators
Der voll funktionsfĂ€hige SmartKom-Demonstrator, der im Juni 2003 vorgestellt wurde, erlaubt dem Benutzer die Verwendung von Spontansprache und Zeigegesten. SmartKom reagiert mit koordinierter Ausgabe von Sprache, Gestik, Grafik und Mimik des Life-like Characters. Ăber dem Demonstrator ist ein LCD-Projektor und eine Gestenerkennungseinheit (SIVIT) angebracht. Grafische Ausgaben werden auf eine horizontal angebrachte FlĂ€che projiziert. Der Benutzer steht vor diesem virtuellen Touch- Screen. Er kann seine HĂ€nde und Finger nutzen, um auf dargestellte Objekte zu zeigen. Es ist nicht nötig, die ProjektionsflĂ€che zu berĂŒhren, da die Gestenerkennungseinheit die Position der HĂ€nde und Finger des Benutzers erfasst. Die Stimmung des Benutzers wird durch die Interpretation des Gesichtsausdrucks sowie der Satzmelodie eingeschĂ€tzt. Der Demonstrator verfĂŒgt ĂŒber neun Beispielanwendungen mit annĂ€hernd 50 Funktionen.
Die Arbeitsweise von SmartKom
SmartKom basiert auf einer multi-blackboard Architektur mit parallel verarbeitenden Threads, die ein hohes MaĂ an FlexibilitĂ€t erlauben. Das System lĂ€uft auf drei Doppelprozessor Pentium-Rechnern unter Windows 2000 oder Linux. Alle Module wie z.B. die Medienfusion und das Mediendesign werden als separate Prozesse auf verteilten Rechnern realisiert. Die Module sind in C, C++, Java oder Prolog implementiert. Eine SchlĂŒsselentscheidung war die Entwicklung von M3L, einer xmlbasierten Markup-Language fĂŒr die ReprĂ€sentation des Informationsaustausches zwischen den verschiedenen Verarbeitungsmodulen von SmartKom. So sind z.B. der Worthypothesengraph, der Gestenhypothesengraph, die Ergebnisse der Medienfusion, der PrĂ€sentationsplan und die Diskursmodellierung in M3L reprĂ€sentiert. M3L wurde entwickelt fĂŒr die ReprĂ€sentation und den Austausch komplexer, multimodaler Inhalte, Informationen ĂŒber die Segmentierung und Synchronisation sowie Informationen ĂŒber die ZuverlĂ€ssigkeit der Verarbeitungsresultate. FĂŒr jeden Kommunikationsknoten wurden XML-Schemata definiert, die ein automatisches ĂberprĂŒfen der Daten wĂ€hrend des Austausches ermöglichen. Die Komponente zur Medienfusion kombiniert die Ausgabe der Sprachund Gestenanalyse. Das Resultat wird an die Intentionserkennung ĂŒbergeben und mit Diskurs- und Weltwissen angereichert. Der Aktionsplaner initiiert eine der erkannten Intention des Benutzers entsprechende Reaktion. Falls notwendig werden ĂŒber das Interface der Funktionsmodellierung externe Dienste kontaktiert. SchlieĂlich wird der PrĂ€sentationsplaner aufgerufen, um die adĂ€quaten AusgabemodalitĂ€ten auszuwĂ€hlen. Der PrĂ€sentationsplaner aktiviert den Sprachgenerator und die Sprachsynthese. Die Interaktion des Benutzers mit dem Life-like Character des situierten, aufgabenorientierten Dialog-Paradigma (SDDP) erfordert die Synchronisation der AusgabemodalitĂ€ten, um KohĂ€renz und natĂŒrliche Kommunikation sicherzustellen. Ein Beispiel hierfĂŒr ist die Synchronisation der Lippenbewegung mit dem Sprachsignal.
Herausragende Merkmale von SmartKom
- Nahtlose Integration und wechselseitige Disambiguierung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene
- Situiertes Verstehen von möglicherweise ungenauen, mehrdeutigen oder unvollstÀndigen Eingaben
- Kontextsensitive Interpretation des Dialogfortschritts auf Basis dynamischer Diskurs- und Kontextmodelle
- Adaptive Generierung von koordinierten, zusammenhÀngenden und sich ergÀnzenden multimodalen PrÀsentationen
- Halb- oder vollautomatische VervollstÀndigung von Benutzeranfragen durch die Integration von Informationsdiensten
- Intuitive Personifizierung des Systems durch einen PrÀsentationsagenten
Ergebnisse von SmartKom
Wissenschaftliche Resultate:
- Publikationen: 255
- abgeschlossene Diplomarbeiten, Promotionen und Habilitationen: 66
- Berufungen an Hochschulen: 6
Wirtschaftliche Resultate:
- 52 Patentanmeldungen
- 29 Spin-off-Produkte
- 6 Spin-off-Unternehmen
?Smartkom ist damit das erfolgreichste aller seit 1998 gestarteten 29 Leitprojekte des BMBF.? Dr. Bernd Reuse, Referatsleiter Softwaresysteme Bundesministerium fĂŒr Bildung und Forschung
Kontakt
Ansprechpartner:
Dr. Anselm Blocher
Projektleitung:
Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster
Homepage:
http://www.smartkom.org/
Weitere Dokumente
Beteiligte Forschungsbereiche
Publikationen
- 2003
- Norbert Reithinger; Jan Alexandersson; Tilman Becker; Anselm Blocher; Ralf Engel; Markus Löckelt; Jochen Müller; Norbert Pfleger; Peter Poller; Michael Streit; Valentin Tschernomas
SmartKom - Adaptive and Flexible Multimodal Access to Multiple Applications.
In: Proceedings of Fifth International Conference on Multimodal Interfaces. Fifth International Conference on Multimodal Interfaces (ICMI-2003), November 5-7, Vancouver, British Columbia, Canada, ACM, 11/2003.
- 2001
- Wolfgang Wahlster; Norbert Reithinger; Anselm Blocher
SmartKom: Multimodal Communication with a Life-Like Character.
In: Proceedings of the 7th European Conference on Speech Communication and Technology. 7th European Conference on Speech Communication and Technology (Eurospeech-2001), September 3-7, Aalborg, Denmark, Pages 1547-1550, Vol. 3, ISCA, 9/2001. - Wolfgang Wahlster; Norbert Reithinger; Anselm Blocher
SmartKom: Towards Multimodal Dialogues with Anthropomorphic Interface Agents.
In: Gottfried Wolf; Gunther Klein (Hrsg.). Proceedings of the International Status Conference "Human-Computer Interaction". International Status Conference "Human-Computer Interaction", Germany, Pages 23-34, o.A. 10/2001.
