PURR
"P U R R" - Prosody Unveiling through Restricted Representation (abgeschlossenes Projekt "Prosodiegenerierung für die Sprachsynthese")
Warum?
Heutige Sprachsynthesesysteme sind fast ebensogut verständlich wie die menschliche Stimme. Die Natürlichkeit und die Verstehbarkeit von synthetischen und menschlichen Stimmen unterscheiden sich dagegen sehr. Vor allem die synthetisch erzeugte Prosodie ist verbesserungsbedürftig.
(Umgangssprachlich kann man 'Prosodie' mit Sprechmelodie bezeichnen.
Das, was im Sprichwort "Der Ton macht die Musik" gemeint ist.)
Die PURR-Methode wurde entwickelt, um damit
- die menschliche Prosodie zu untersuchen
und die Erkenntnisse über prosodische Funktionen zu erweitern
und konkret am Sprachsignal zu analysieren - die prosodische Qualität von synthetischer Sprache gezielt zu beurteilen
sowohl von einem einzelnen System als auch im Vergleich mit mehreren Systemen
Durch die ausschließliche Darbietung der prosodischen Information in Perzeptionstests wird gewährleistet, daß der Hörer die Prosodie der präsentierten Äußerung beurteilt und nicht von segmentalen oder stimmlichen Parametern beeinflußt wird.
Demos (Wie hört es sich an?)
"Der Zug fährt um 17:15 Uhr vom Hauptbahnhof ab."
- Original(männliche Stimme)
- PURR-Signal
"Die Frau, die letzten Freitag hier war, gehört auch zur Gruppe."
- Original (weibliche Stimme)
- PURR-Signal
Signal (Wie entsteht es? Wie sieht es aus?)
Die zu evaluierenden Sprachsignale werden delexikalisiert, indem die Grundperiodenmarken bestimmt werden und durch drei überlagerte Sinussignale (1. Sinus mit aus dem Original übernommener Amplitude und Periodendauer, 2. Sinus mit doppelter Frequenz und 1/4 der Originalamplitude, 3. Sinus mit dreifacher Frequenz und 1/16 der Originalamplitude) ersetzt werden. Dabei werden stimmlose Abschnitte als Pausen abgebildet und spiegeln somit die rhythmische Struktur des Originalsignals wider. Das resultierende Signal enthält demnach ausschließlich die prosodisch relevanten Eigenschaften: Grundfrequenzverlauf, zeitliche Struktur und Intensität.
Die roten Linien stellen die Grundfrequenzmarken (pitchmarks) dar.
Sie sind hier nur zur Veranschaulichung dargestellt.
Die drei Sinussignale (im Bild links) werden überlagert und ergeben das Bild rechts.
Artikel (Was wurde schon damit gemacht?)
- Sonntag, Gerit P. (1998):
- Vergleichende Evaluation der Prosodie deutscher Sprachsynthesen
- Fortschritte der Akustik - DAGA'98, Zürich, 480-481
- Sonntag, Gerit P.; Portele, Thomas (1998):
PURR - a method for prosody evaluation and investigation
Journal of Computer Speech and Language, Vol.12, No.4, October 1998
Special Issue on Evaluation in Language and Speech Technology, 437-451 - Sonntag, Gerit P.; Portele, Thomas (1998a):
- Comparative evaluation of synthetic prosody with the PURR method
- Proceedings of the ICSLP, Sydney, Vol.5, 1715-1718
Credits:
My very special thanks go to:
- Thomas Portele
- Volker Strom
- Karlheinz Stöber
- Jürgen Krämer
without their help the PURR-method would not have been developed

