• DFKI

Das VOICE Awards Corpus

Fakten

1970Mensch-Maschine-Dialoge
120verschiedene Dialogsysteme
25Domänen
> 23.000Benutzeräußerungen
> 500.000Wörter

Verfügbare Daten

Daten/Annotationen
Audio
Transkription
Dialogakte
Fehler/Miskommunikation
Wiederholungen
Dialogerfolg
Nutzerurteile (je Nutzer/System)
Domäme (je System)

Beschreibung

Der jährlich stattfindende Wettbewerb “VOICE Awards” ist eine Evaluation kommerziell eingesetzter deutschsprachiger Sprachdialogsysteme. Seit 2004 werden die besten deutschen Sprachdialogsysteme in diese Maßstab setzende Evaluation eingereicht, wo sie von erfahrenen und unerfahrenen Benutzern getestet werden. Das Korpus besteht aus den Aufnahmen dieses Wettbewerbs aus den Jahren 2005-2009.

Das Korpus umfässt eine große Breite an Dialogsystemen und stellt einen Querschnitt der aktuellen, kommerziell eingesetzten deutschen SDS auf dem neusten Stand der Technik dar. Isgesamt enthält das Korpus 150 Dialogsysteme mit einer Gesamtzzahl von 1970 Dialogen. Einige Dialogsysteme wurden in mehreren aufeinanderfolgenden Jahren in den Wettbewerb VOICE Awards eingereicht. Da es innerhalb der Systeme von Jahr zu Jahr normalerweise Unterschiede gibt, sind diese Systeme so oft gezält, wie sie eingereicht wurden.

In jedem Jahr des Wettbewerbs wurden mehrere Laien gebeten, die Dialogsysteme anzurufen um sie zu testen. Dabei waren jeweils bestimmte Ziele definiert worden, die in einem Dialog erreicht werden sollten. Diese Aufgaben waren durch die Experten gegeben und bezogen sich auf die Systembeschreibungen der Entwickler. Nach Beendigung der Aufgabe wurden die Benutzer gebeten Fragebögen über die Zufriedenheit mit einem System auszufüllen, welchen einen Großteil der Evaluation für die Auszeichnung ausgemacht haben. Neben den Laientestern haben jeweils auch zwei Experten mit den Systemen interagiert und weitere, intensivere Tests durchgeführt. Die Aufzeichnungen dieser Gespräche sind jedoch nur in einigen Fällen im Korpus vorhanden.

Das VOICE Awards Korpus wurde mit dem NITE XML Toolkit auf drei Leveln handannotatiert. Die Annotationsdomänen sind Dialogakte, Marker für Fehlkommunikation und Erfolg einer Aufgaben, sowie Wiederholungen. Die Annotationen dienen dem Lernen von Dialog- und Fehlerstrategien per Benutzersimulation. Daher wurden nur Informationen verwendet, die während der Benutzung eines Sprachdialogsystems in Echtzeit gewonnen werden können.

Außerdem enthält das Korpus eine Klassifikation von Inhalts- und Zieldomänen der einzelnen Systeme.