DFKI-LT - Zur Machbarkeit von Synthese emotionaler Sprache ohne Modellierung der Stimmqualität

Marc Schröder
Zur Machbarkeit von Synthese emotionaler Sprache ohne Modellierung der Stimmqualität
1 Elektronische Sprachsignalverarbeitung, Pages 222-229, Görlitz, 1999
 
Die vorliegende Studie widmet sich der Frage, ob emotionale Sprechweise in konkatenativer Sprachsynthese ohne Manipulation der Stimmqualität modelliert werden kann. Ein Satz wurde von drei Sprechern mit vier Emotionen (Wut, Freude, Angst und Traurigkeit) sowie mit neutraler Sprechweise produziert. Die besterkannten dieser "natürlichen" emotionalen Äußerungen wurden akustisch analysiert (Segmentdauern, -energie, und F0-Extrema) und mittels Copy-Synthese nachgebildet. Während einige der resultierenden "synthetischen" Stimuli fast so gut der intendierten Emotion zugeordnet wurden wie die "natürlichen" Originale, ging bei anderen die Erkennung komplett verloren. In einem offenen Perzeptionstest wurde eine ausgeprägte und nur bedingt vom Stimulus abhängende Präferenz für die Kategorie "Enttäuschung" gefunden.
 
Files: BibTeX, Schroder:1999:MSE.pdf