Förderjahr 2023 / Projekt Call #18 / ProjektID: 6735 / Projekt: AsTeRICS Grid
Der aktuelle Boom von KI wirkt sich auch positiv auf die Möglichkeiten für hochqualitative computergenerierte Stimmen aus. Nun ist es möglich in AsTeRICS Grid beliebige dieser Stimmen zu verwenden um so deren Potentiale für UK auszuschöpfen.
Im Bereich der künstlichen Intelligenz wurden in den letzten Jahren bedeutende Fortschritte erzielt. Auch für computergenerierten Stimmen hat das einen Aufschwung bedeutet und viele kommerzielle Anbieter haben ihre diesbezüglichen Angebote stark ausgebaut und auch einige freie Alternativen wurden entwickelt. Ein Beispiel für eine sehr interessante aktuelle Entwicklung ist YourTTS, welches es ermöglicht mit sehr kurzem Trainingsmaterial eine künstliche Kopie einer Stimme zu erzeugen. Dieses Projekt wurde auch bereits für eine Forschungsarbeit an der TU Graz verwendet.
Natürlich ist es interessant diese Entwicklungen auch für den Bereich der Unterstützten Kommunikation verfügbar zu machen, um so Menschen ohne eigene Stimme eine hochqualitative künstliche Stimme zur Verfügung zu stellen. In AsTeRICS Grid war es bisher nur möglich über die Web Speech API jene Stimmen zu verwenden, die auf dem jeweiligen Betriebssystem (z.B. Windows, Android, iOS) installiert sind. Da neuartige KI-Stimmen oftmals keine direkte Integration in die Betriebssysteme ermöglichen, waren diese bisher nicht für UK in AsTeRICS Grid verwendbar.
Um das zu ändern, wurde nun im Rahmen von netidee eine universell verwendbare "Brücke" für die Verwendung beliebiger Computerstimmen entwickelt. Ein zusätzliches, in Python geschriebenes Programm stellt eine standardisierte Schnittstelle (REST API) zur Verfügung, welche AsTeRICS Grid mit beliebigen "Providern", also Spracherzeugungs-Diensten, verbindet. Abbildung 1 veranschaulicht dieses Konzept. Der Vorteil von dieser Vorgehensweise ist, dass recht einfach beliebige, neue Provider hinzugefügt werden können, ohne dass AsTeRICS Grid verändert werden muss.
In der ersten Implementierung wurden folgende Spracherzeugungs-Dienste integriert:
- Mycroft Mimic 3 - freies Projekt für offline Spracherzeugung mit 40 verfügbaren hochqualitativen Stimmen in vielen Sprachen
- Piper - ebenfalls ein freies Projekt mit 30 Offline-Stimmen in verschiedenen Sprachen
- Microsoft Azure Text-to-Speech - kommerzieller Anbieter mit über 200 online verfügbaren, hochqualitativen Stimmen
- pyttsx - einfach zu verwendende Bibliothek für Python, die wiederum verschiedene Anbieter einbinden kann.
Die Dokumentation für die Verwendung der "Brücke" findet sich im entsprechenden Projekt auf GitHub.
Neben dieser Entwicklung, welche derzeit in der Beta-Version von AsTeRICS Grid testbar ist, wurden mittlerweile auch folgende, durch netidee geförderte Features von AsTeRICS Grid in die Hauptversion veröffentlicht:
- Integration von Wortformen (siehe auch letzter Blogartikel über Wortformen)
- Integration von allgemeinen HTTP-Requests als Aktion bei Auswahl von Elementen
Details zu diesen Entwicklungen sind in den Release Notes der aktuellen Version zu finden, worin auch die Dokumentation zu diesen Features verlinkt ist.
Benjamin Klaus
Ich durfte an der FH Technikum Wien in zwei Forschungsprojekten zu Assistierenden Technologien mitarbeiten und habe dabei ein besonderes Interesse für Unterstützte Kommunikation (UK) entdeckt. Dieses Teilgebiet der Assistierenden Technologien beschäftigt sich mit der Frage, wie Menschen ohne Lautsprache Wege zur zwischenmenschlichen Kommunikation eröffnet werden können. Eine Möglichkeit dafür sind Apps für Kommunikation über Symbole. Mit "AsTeRICS Grid" haben wir an der FH Technikum Wien eine freie Software zu genau diesem Zweck entwickelt, die ich nun im Rahmen von netidee weiterentwickeln darf.