Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Forschung Phonetik Prosodiegetriebene Erkennung spontaner Sprache

Prosodiegetriebene Erkennung spontaner Sprache

Prosodiegetriebene Erkennung spontaner Sprache mit unbegrenztem Wortschatz (abgeschlossenes DFG-Projekt)

Im Bereich der Erkennung von prosodischen Ereignissen - u.a. von Wort- und Phrasenakzenten - haben sich in jüngster Zeit große Fortschritte ergeben. Ähnliches gilt für die Forschung im Bereich der Integration von verschiedenen linguistischen Wissensquellen bei der automatischen Spracherkennung. Auf der Basis der dabei gewonnenen Methoden kann nun ein nächstes großes Forschungsziel ins Auge gefaßt werden: Die Begrenzung auf eine feste Anzahl von Wortformen soll fallen.

Hierfür sollen in den folgenden Bereichen Konzepte und Methoden entwickelt werden:

  • Ein Inventar von Wortteilen (WT) muß entwickelt werden, daß die klassischen Aussprachewörterbücher akustischer Verbundworterkenner ersetzt. Aus WT sollen beliebige Wörter zusammensetzbar sein. Sie müssen jedoch auch akustisch-phonetischen Erfordernissen genügen.
  • Die Wortuntereinheiten (WUE, z.B. Triphone oder Polyphone) klassischer Verbundworterkenner werden als Wortteiluntereinheiten (WTUE) weiterentwickelt. Sie werden im Hinblick auf robuste WT-Erkennung, insbesondere von kurzen und verschliffenen Wortteilen optimiert.
  • Um Erkennungsdefizite gegenüber dem vollwort-basierten Ansatz zu vermeiden, muß beim dynamischen Aufbau von Wörtern aus Wortteilen der prosodische Akzent verwendet werden.
  • Korrelationen von WTs untereinander und deren Abhängigkeiten von prosodischen und äußerungsbezogenen syntaktischen Ereignissen müssen weiter erforscht und in statistischen Modellen formuliert werden.

    Da nur eine von vier Stellen bewilligt wurde, können nicht alle Teile des Antrags in vollem Umfang bearbeitet werden. Für die ersten zwei Jahre ist geplant, einen zweistufigen Worterkenner zu entwickeln:

  • In der ersten Stufe dekodiert ein HMM-Erkenner (basierend auf HTK) das Sprachsignal in WTs. Dabei werden neben akustischen Merkmalen und dem WT-Bigramm auch prosodisch-akustische Merkmale und ein Sprachmodell von WT-Klassen und Akzentstufen eingesetzt.
  • In der zweiten Stufe werden die WTs zu Wörtern zusammengesetzt.
  • Als WTs werden zunächst Morpheme mit bestimmten Eigenschaften verwendet (z.B. mindestens eine Silbe lang, wobei der Silbenkern kein Schwa ist).
  • Als Sprachmaterial dient vorläufig das spontan gesprochene Verbmobil-Korpus.

    Es besteht enger Kontakt zum Arbeitsbereich Natürlichsprachliche Systeme (Fachbereich Informatik) der Universität Hamburg im Bereich der HMM-Erkennung und eine Kooperation mit der Computerlinguistik der Universität Erlangen im Bereich der automatischen Zerlegung von Wörtern in Morpheme.

    Erste Ergebnisse wurden auf der EUROSPEECH 1999 in Budapest veröffentlicht.

Artikelaktionen