Beliebige Computerstimmen für AsTeRICS Grid

Wie neue Text-to-Speech-Stimmen (TTS) einfach in AsTeRICS Grid integriert werden können (28.03.2024)

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6735 / Projekt: AsTeRICS Grid

Der aktuelle Boom von KI wirkt sich auch positiv auf die Möglichkeiten für hochqualitative computergenerierte Stimmen aus. Nun ist es möglich in AsTeRICS Grid beliebige dieser Stimmen zu verwenden um so deren Potentiale für UK auszuschöpfen.

Im Bereich der künstlichen Intelligenz wurden in den letzten Jahren bedeutende Fortschritte erzielt. Auch für computergenerierten Stimmen hat das einen Aufschwung bedeutet und viele kommerzielle Anbieter haben ihre diesbezüglichen Angebote stark ausgebaut und auch einige freie Alternativen wurden entwickelt. Ein Beispiel für eine sehr interessante aktuelle Entwicklung ist YourTTS, welches es ermöglicht mit sehr kurzem Trainingsmaterial eine künstliche Kopie einer Stimme zu erzeugen. Dieses Projekt wurde auch bereits für eine Forschungsarbeit an der TU Graz verwendet.

Natürlich ist es interessant diese Entwicklungen auch für den Bereich der Unterstützten Kommunikation verfügbar zu machen, um so Menschen ohne eigene Stimme eine hochqualitative künstliche Stimme zur Verfügung zu stellen. In AsTeRICS Grid war es bisher nur möglich über die Web Speech API jene Stimmen zu verwenden, die auf dem jeweiligen Betriebssystem (z.B. Windows, Android, iOS) installiert sind. Da neuartige KI-Stimmen oftmals keine direkte Integration in die Betriebssysteme ermöglichen, waren diese bisher nicht für UK in AsTeRICS Grid verwendbar.

Um das zu ändern, wurde nun im Rahmen von netidee eine universell verwendbare "Brücke" für die Verwendung beliebiger Computerstimmen entwickelt. Ein zusätzliches, in Python geschriebenes Programm stellt eine standardisierte Schnittstelle (REST API) zur Verfügung, welche AsTeRICS Grid mit beliebigen "Providern", also Spracherzeugungs-Diensten, verbindet. Abbildung 1 veranschaulicht dieses Konzept. Der Vorteil von dieser Vorgehensweise ist, dass recht einfach beliebige, neue Provider hinzugefügt werden können, ohne dass AsTeRICS Grid verändert werden muss.

Abbildung 1: Konzept der "Brücke" zwischen AsTeRICS Grid und Spracherzeugungs-Diensten

In der ersten Implementierung wurden folgende Spracherzeugungs-Dienste integriert:

Mycroft Mimic 3 - freies Projekt für offline Spracherzeugung mit 40 verfügbaren hochqualitativen Stimmen in vielen Sprachen
Piper - ebenfalls ein freies Projekt mit 30 Offline-Stimmen in verschiedenen Sprachen
Microsoft Azure Text-to-Speech - kommerzieller Anbieter mit über 200 online verfügbaren, hochqualitativen Stimmen
pyttsx - einfach zu verwendende Bibliothek für Python, die wiederum verschiedene Anbieter einbinden kann.

Die Dokumentation für die Verwendung der "Brücke" findet sich im entsprechenden Projekt auf GitHub.

Neben dieser Entwicklung, welche derzeit in der Beta-Version von AsTeRICS Grid testbar ist, wurden mittlerweile auch folgende, durch netidee geförderte Features von AsTeRICS Grid in die Hauptversion veröffentlicht:

Integration von Wortformen (siehe auch letzter Blogartikel über Wortformen)
Integration von allgemeinen HTTP-Requests als Aktion bei Auswahl von Elementen

Details zu diesen Entwicklungen sind in den Release Notes der aktuellen Version zu finden, worin auch die Dokumentation zu diesen Features verlinkt ist.

Benjamin Klaus

Technik hat mich immer schon fasziniert und dementsprechend wählte ich auch meine Ausbildung. Nach der HTL in St. Pölten studierte ich Softwareentwicklung an der TU Wien und danach "Health Assisting Engineering" an der FH Campus Wien. Noch faszinierender wird Technik für mich, wenn sie Menschen eine echte Hilfe ist, das Leben bereichert und lebenswerter macht. Der Bereich der Assistierenden Technologien ist ein Forschungsgebiet, in dem genau das Wirklichkeit wird: Menschen mit Behinderung bekommen durch Technik wieder neue Perspektiven und können sonst undenkbare Möglichkeiten für Teilhabe und Selbstbestimmung (wieder-)erlangen.

Ich durfte an der FH Technikum Wien in zwei Forschungsprojekten zu Assistierenden Technologien mitarbeiten und habe dabei ein besonderes Interesse für Unterstützte Kommunikation (UK) entdeckt. Dieses Teilgebiet der Assistierenden Technologien beschäftigt sich mit der Frage, wie Menschen ohne Lautsprache Wege zur zwischenmenschlichen Kommunikation eröffnet werden können. Eine Möglichkeit dafür sind Apps für Kommunikation über Symbole. Mit "AsTeRICS Grid" haben wir an der FH Technikum Wien eine freie Software zu genau diesem Zweck entwickelt, die ich nun im Rahmen von netidee weiterentwickeln darf.

Weitere Blogbeiträge

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6735 / Projekt: AsTeRICS Grid

Tags:

Benjamin Klaus

Weitere Blogbeiträge

Licht einschalten, Wetterbericht und Witze für Alle

Award "Digitaler Humanismus in der Praxis" gewonnen

Ein neues Herzstück für AsTeRICS Grid

Kooperationen und Anpassungen

AsTeRICS Grid trifft Global Symbols

Integration mit externen Services und Hardware

AsTeRICS Grid unterstützt Wortformen

AsTeRICS Grid - Kommunikation für Alle