Spitch: Sprache wird dominante Eingabemethode

Von moneycab

11. Juni 2021, 10:11 Uhr

Zürich – Gesprochene Sprache wird sich in den 2020er Jahren zur dominanten Mensch-Maschine-Schnittstelle für die Informationseingabe entwickeln. Diese Prognose wagt Jürg Schleier, Country Manager DACH des Sprachsystemspezialisten Spitch AG. Er begründet seine These kurz und bündig: „Sprechen ist für die Menschen leichter als tippen, wischen oder drücken.“ Bei der Ausgabe sieht er hingegen eine Zweiteilung zwischen gesprochener Sprache und bildlicher Darstellung. Er sagt dazu: „Hören und Sehen sind für uns Menschen gleichermassen einfach.“

Mit Computern zu reden wird zur Selbstverständlichkeit
Jürg Schleier ist sich sicher, dass „wir künftig Computer, Smartphones, Smart Homes und irgendwann auch Autos überwiegend per Sprache steuern.“ Er geht dabei von einer stark steigenden Erwartung der Menschen an die Dialogfähigkeit der Systeme aus. Dazu Jürg Schleier: „Mit Computern zu reden wird im Laufe der 2020er Jahre zur Selbstverständlichkeit werden.“ Er beschreibt den Ablauf: „Man stellt eine Frage, der Computer gibt Auskunft oder stellt eine Rückfrage, bis die passende Antwort gefunden oder das gewünschte Ergebnis erzielt ist.“ Er bezeichnet diese Art von Mensch-Maschine-Dialogen als „Querschnittsphänomen“, das kaum eine Branche aussen vorlassen werde. Die Unternehmen müssten sich zügig durch den Einsatz von Sprachdialogsystemen vorbereiten, um ihre Wettbewerbsfähigkeit in den 2020er Jahren zu behalten, meint Jürg Schleier.

Deutliche höhere Anforderungen
Wer regelmässig zu Hause mit Alexa und am Smartphone mit Siri spricht, erwartet diese Art von Sprachservice auch bei seiner Bank, beim Autohaus, beim Arzt, bei Behörden, beim Verkehrs- oder Logistikdienstleister. Dazu Jürg Schleier: „Bei Unternehmen und Behörden sind die Anforderungen jedoch deutlich höher als bei Consumer Services wie Alexa oder Siri, weil die Systeme das branchen- und fachspezifische Vokabular beherrschen müssen. Zudem sind die Anforderungen an Sicherheit und Verlässlichkeit um ein Vielfaches höher. Daher müssen Sprachdialogsysteme für die Wirtschaft und den Öffentlichen Dienst über mehrere Monate hinweg fachlich trainiert werden.“

Höhere Kundenzufriedenheit und niedrigere Kosten
Daher seien Unternehmen und Öffentliche Verwaltung gut beraten, frühzeitig mit Sprachsystemen anzufangen, um das erforderliche Know-how und die Integration in die Backendsysteme voranzubringen: „Die Kunden werden schneller bedient und bei den Firmen entstehen enorme Kosteneinsparungen. Es ist diese Kombination aus der Steigerung der Kundenzufriedenheit und den Einsparpotenzialen, die es für Unternehmen so attraktiv macht, mit der Einführung von Sprachsystemen zu beginnen.“

Als entscheidend für die zunehmende Akzeptanz von Sprachdialogsystemen hat Spitch zwei technologische Trends ausgemacht: die stetige Verbesserung der Spracherkennung und den zunehmenden Einsatz von Künstlicher Intelligenz für die Dialogführung. Heutige Systeme erkennen in mehr als 90 Prozent aller Fälle automatisch, worum es geht, und finden die richtige Antwort oder den passenden Ansprechpartner.

Automatische Identifizierung anhand der Stimme
Ein weiterer Vorteil der Spracherkennung: Sie kann ohne weiteren Aufwand als biometrische Identifizierungsmethode eingesetzt werden. Hierzu wird ein Stimmprofil aufgezeichnet, anhand dessen ein Anrufer bei allen Folgeanrufen sofort erkannt wird. Das ist in vielen Einsatzbereichen wie beim Online-Banking von Bedeutung, bei denen man die Identität einwandfrei sicherstellen will. „Die Sprachbiometrie wird von immer mehr Unternehmen als praktikabelste und kosteneffiziente Methode zur Authentifizierung eingesetzt“, sagt Jürg Schleier. Der Anrufer muss keinen PIN-Code und kein Passwort zur Hand haben. „Es gibt keine bessere, sicherere und einfachere Methode sich am Telefon auszuweisen“. Der gelegentliche Einwand, dass Sprachimitatoren eine Stimme nachahmen könnten, führe nicht zur Überlistung von Sprachidentifikationssystemen, widerspricht er: „Eine individuelle Sprachcharakteristik wird durch über 100 Parameter bestimmt, die niemand nachahmen kann. Der Mensch lässt sich von einer Sprachimitation eventuell täuschen, die Maschine nicht.“ (Spitch/mc)

Schreibe einen Kommentar