Im Profilbereich Cybersecurity der TU Darmstadt arbeiten Wissenschaftlerinnen und Wissenschaftler an verschiedensten Herausforderungen im Bereich von IT-Sicherheit und Privatheit. Das Thema sichere sprachgesteuerte Dienste ist ein Beispiel für Spitzenforschung, wie sie künftig im neuen Gebäude am Kantplatz stattfinden wird, für das am Freitag (31.08.18) Richtfest gefeiert wurde.
Mittlerweile sind sie im Leben vieler Nutzerinnen und Nutzer allgegenwärtig: Amazons „Alexa“, Apples „Siri“, Googles Assistant oder Microsofts „Cortana“ stehen mehr als zwei Milliarden Smartphone-Nutzern jederzeit zur Verfügung. Gleichzeitig steigt die Zahl von Smart-Home-Geräten wie Amazon Echo, Apple HomePod, oder Google Home. Und auch im Unternehmensumfeld werden digitale Assistenten zur Steigerung der Produktivität erprobt.
Zwecks Spracherkennung werden dafür jedoch kontinuierlich Audioaufzeichnungen in die Cloud übertragen. Das birgt erhebliche Risiken, denn diese Aufnahmen enthalten sensible biometrische Daten und potentiell vertrauliche Informationen. Gerieten diese in die falschen Hände, drohte neben dem Verlust von (Betriebs-)Geheimnissen zusätzliche Gefahr, zum Beispiel durch „Fake Recordings“. Das sind authentisch wirkende, jedoch künstlich erzeugte Sprachaufnahmen mit kompromittierendem Inhalt.
Um solche Bedrohungen bestmöglich einzudämmen, haben Wissenschaftler der TU Darmstadt unter der Leitung von Professor Ahmad-Reza Sadeghi und Professor Thomas Schneider gemeinsam mit dem Spracherkennungsexperten Professor Korbinian Riedhammer von der Hochschule Rosenheim eine neue Softwarearchitektur namens „VoiceGuard“ entwickelt. VoiceGuard nutzt Intel Software Guard Extensions (SGX), um die Sprachverarbeitungsprozesse von den Systemen des Dienstanbieters oder alternativ des Nutzers vollständig zu isolieren und sämtliche Daten zu schützen. Hierdurch wird sowohl die Privatsphäre des Nutzers als auch das geistige Eigentum des Dienstanbieters geschützt.
Die Evaluierung eines ersten Prototypen zeigt, dass VoiceGuard Privatsphäre-schützende Spracherkennung sogar in Echtzeit ermöglicht. Dank der generischen Architektur kann das Konzept auch für vergleichbare Aufgaben wie das Erkennen von Emotionen erweitert werden. VoiceGuard wird im September auf der INTERSPEECH 2018 vorgestellt, der internationalen Top-Konferenz im Bereich Sprachverarbeitung.
Quelle: TU Darmstadt