Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Forschung Phonetik Prosodiegenerierung für die Sprachsynthese

PURR

"P U R R" - Prosody Unveiling through Restricted Representation (abgeschlossenes Projekt "Prosodiegenerierung für die Sprachsynthese")

Warum?

Heutige Sprachsynthesesysteme sind fast ebensogut verständlich wie die menschliche Stimme. Die Natürlichkeit und die Verstehbarkeit von synthetischen und menschlichen Stimmen unterscheiden sich dagegen sehr. Vor allem die synthetisch erzeugte Prosodie ist verbesserungsbedürftig.

(Umgangssprachlich kann man 'Prosodie' mit Sprechmelodie bezeichnen.
Das, was im Sprichwort "Der Ton macht die Musik" gemeint ist.)

Die PURR-Methode wurde entwickelt, um damit

  • die menschliche Prosodie zu untersuchen
    und die Erkenntnisse über prosodische Funktionen zu erweitern
    und konkret am Sprachsignal zu analysieren
  • die prosodische Qualität von synthetischer Sprache gezielt zu beurteilen
    sowohl von einem einzelnen System als auch im Vergleich mit mehreren Systemen

Durch die ausschließliche Darbietung der prosodischen Information in Perzeptionstests wird gewährleistet, daß der Hörer die Prosodie der präsentierten Äußerung beurteilt und nicht von segmentalen oder stimmlichen Parametern beeinflußt wird.

Demos (Wie hört es sich an?)

"Der Zug fährt um 17:15 Uhr vom Hauptbahnhof ab."

"Die Frau, die letzten Freitag hier war, gehört auch zur Gruppe."

Signal (Wie entsteht es? Wie sieht es aus?)

Die zu evaluierenden Sprachsignale werden delexikalisiert, indem die Grundperiodenmarken bestimmt werden und durch drei überlagerte Sinussignale (1. Sinus mit aus dem Original übernommener Amplitude und Periodendauer, 2. Sinus mit doppelter Frequenz und 1/4 der Originalamplitude, 3. Sinus mit dreifacher Frequenz und 1/16 der Originalamplitude) ersetzt werden. Dabei werden stimmlose Abschnitte als Pausen abgebildet und spiegeln somit die rhythmische Struktur des Originalsignals wider. Das resultierende Signal enthält demnach ausschließlich die prosodisch relevanten Eigenschaften: Grundfrequenzverlauf, zeitliche Struktur und Intensität.

purr1.jpgr_arrow.jpgpurr2.jpg
Die roten Linien stellen die Grundfrequenzmarken (pitchmarks) dar.
Sie sind hier nur zur Veranschaulichung dargestellt.
Die drei Sinussignale (im Bild links) werden überlagert und ergeben das Bild rechts.

Artikel (Was wurde schon damit gemacht?)

Credits:

My very special thanks go to:

  • Thomas Portele
  • Volker Strom
  • Karlheinz Stöber
  • Jürgen Krämer

without their help the PURR-method would not have been developed

Artikelaktionen