AVISS
Audio-VIsual-Synthesis-System
Audio-Visuelle Synthese rückt als Forschungsgegenstand mehr und mehr in den Blickpunkt all derjeniger Forscher, die sich mit dem Prozeß der Mensch-Maschine-Interaktion (engl. Human-Computer-Interaction, HCI) beschätigen. Ziel der Audio-Visuellen Synthese ist es, ein Text-To-Speech System um eine visuelle Ausgabe zu ergänzen; dabei sollen synthetische Sprache und Lippenbewegungen der visuellen Ausgabe synchron zueinander sein. Die visuelle Ausgabe wird entweder aus einem Modell künstlich erzeugt (Avatar, "Talking Heads"), oder es wird aus aufgezeichneten Videosequenzen bzw. Standbildern eine video-realistische Ausgabe zusammengesetzt.
Unser Audio-VIsual-Synthesis-System arbeitet mit aufgezeichneten Video-Daten einer Person, die im Stil eines Nachrichtensprechers Text vorliest. Das so gewonnene Video-Korpus bildet die Datenbank für die Generierung der visuellen Ausgabe für das TTS-System. Das TTS-System selbst ist unabhängig von dem visuellen Synthese-Modul, so dass für Audio- und Videosignal verschiedene Verfahren oder Datenquellen benutzt werden können. Zum Einsatz kommen unterschiedliche Algorithmen aus den Bereichen der Sprachsignal- und Multimediaverarbeitung.
Unten aufgeführt finden Sie mehrere Screenshots und Beispiele für die Ausgabe von AVISS; weiterführende Informationen finden Sie in unseren Publikationen.
Beispiel-Video 1 wmv (184kb)
Beispiel-Video 2 wmv (107kb)

