1 Finde ich gut

Verstehst du mich, Siri?: Die Schnittstelle von Künstlicher Intelligenz und Sprachwissenschaft

Bitte entschuldigen Sie dieses sehr unwissenschaftliche Experiment! Beim DAAD-Stipendiatentreffen an der RWTH Aachen drehte sich alles um das Thema Künstliche Intelligenz. Zu diesem Anlass wollte das Alumniportal herausfinden, was passiert, wenn Künstliche Intelligenz mit verschiedenen Sprachen und Akzenten konfrontiert wird. Obwohl die Ergebnisse in wissenschaftlicher Hinsicht sicherlich etwas zu wünschen übrig lassen, bringen sie Sie vielleicht zum Lachen – und Sie können es sogar selbst probieren.

Wie gut verstehen uns Siri und/oder Alexa? Das Alumniportal Deutschland versucht, dieser Frage mithilfe der Kampagne #apdsiri auf den Grund zu gehen. Dazu haben wir uns beim DAAD-Stipendiatentreffen an der RWTH Aachen im Juni 2019 Unterstützung von einigen DAAD-Stipendiaten geholt. Wir untersuchten die Sprachkompetenz von Siri, indem wir die Stipendiaten baten, der Software Zungenbrecher in deutscher und englischer Sprache vorzusprechen. Anschließend prüften wir, ob Siri das Gesagte verstanden hatte. Um es vorsichtig auszudrücken: Die Ergebnisse waren interessant. Im Anschluss baten wir Anna Konstantinova, ehemalige DAAD-Stipendiatin, Deutschland-Alumna und Doktorandin an der Universität Münster, unsere unterschiedlichen (und unterhaltsamen) Ergebnisse mithilfe ihrer sprachwissenschaftlichen Expertise zu erklären.

Anna Konstantinova ist Doktorandin am Promotionskolleg Empirische und Angewandte Sprachwissenschaft der Westfälischen Wilhelms-Universität Münster. Sie ist Deutschland-Alumna aus Kasan, Russland und erhielt ein DAAD-Stipendium, mit dem sie ihr Masterstudium der Angewandten Sprachwissenschaften an der Universität Bonn abschließen konnte. Sie ist auf die sprachwissenschaftlichen Aspekte von Dialogen mit Sprachassistenten in Mutter- und Fremdsprache der Nutzer spezialisiert. 

Verstehst du mich, Siri?

Haben Sie schon einmal versucht, Siri oder Alexa zu fragen, ob Sie heute Abend einen Regenschirm brauchen oder wann genau Ihr Zahnarzttermin morgen ist? Wenn ja, ist Ihnen sicherlich aufgefallen, dass das manchmal gut funktioniert und dann wieder nicht: Das System versteht Sie falsch und antwortet mit willkürlichen Anmerkungen oder liefert Ihnen eine Reihe unpassender Internetlinks. Beispielsweise möchte ein Nichtmuttersprachler auf Englisch nach Bildern von Mischlingshunden („hybrid breed dogs“) suchen. Siri sucht aber stattdessen nach Bildern von Piratenhunden („pirate dogs“). Vielleicht denken Sie sich jetzt: „Vermutlich hatte der Sprecher im gesprochenen Englisch einen sehr starken Akzent – kein Wunder also, dass Siri den Suchbefehl nicht verstanden hat.“

Manche ausländischen Akzente sind schwerer zu verstehen, und zwar in Abhängigkeit davon, wie vertraut uns dieser Akzent ist und welche Muttersprache wir selbst haben. Anfangs kostet es uns unter Umständen besondere Anstrengung, unserem neuen Gesprächspartner zu folgen, beispielsweise einem Konferenzredner mit einem uns unbekannten Akzent. Nach einer Weile nehmen wir den Akzent dann kaum noch wahr. Und wenn wir das nächste Mal einen ähnlichen Akzent hören, verstehen wir ihn wahrscheinlich mühelos. Dies ist eine der stärksten Fähigkeiten des menschlichen Spracherkennungssystems: perzeptuelles Lernen. Das menschliche Gehirn entschlüsselt die Bedeutung von Wörtern nicht, indem es einzelne Laute zusammenfügt. Vielmehr können wir in der Mehrzahl der Fälle den Rest des Wortes bereits erraten, nachdem wir die ersten Sprachlaute gehört haben. Diese Fähigkeit macht unsere Spracherkennungsfertigkeiten unglaublich flexibel und effizient.

Spracherkennungstechnologie: Hinter den Kulissen

Aktuell gibt es keine Spracherkennungstechnologie, welche die Spracheingabe jedes einzelnen Sprechers einer bestimmten Sprache zu einem unerwarteten oder unbekannten Thema korrekt erfasst. Hintergrundgeräusche wie Regen, Verkehr, Unterhaltungen oder Kaffeemaschinen verschlechtern die Spracherkennungsrate zusätzlich. Bei Muttersprachlern dagegen beträgt die Wahrscheinlichkeit, dass sie jede Äußerung in der jeweiligen Muttersprache korrekt erkennen fast 100%. Wenn es auf Basis der Erkenntnisse darüber, wie Menschen Sprache wahrnehmen, möglich wäre, ein ähnliches Erkennungssystem in automatischen Spracherkennungssystemen nachzubauen, läge es nicht auf der Hand, dass die sprachwissenschaftliche Forschung eine zentrale Rolle bei der Entwicklung von Sprachassistenten spielen sollte?

Interessanterweise wurde die Technologie, die Maschinen beibringt, menschliche Sprache zu erkennen und zu verstehen, von Entwicklern konzipiert, die keine oder wenig Fachberatung aus dem sprachwissenschaftlichen Bereich hatten. Das lag aber nicht daran, dass die Entwickler nicht auf die Idee gekommen wären, dass sprachwissenschaftliches Wissen von Vorteil sein könnte. Das Problem war, dass die Anwesenheit eines Sprachwissenschaftlers im Entwicklerteam für eine automatische Spracherkennung nicht zum Erfolg geführt hat, sondern, dass das System in Abwesenheit des Sprachwissenschaftlers die besseren Erkennungsraten zeigte. Überraschend ist das jedoch nicht. Je weniger Sie über das Thema wissen, desto einfacher ist es vielleicht, ein einfacheres Modell davon zu erstellen, aber je mehr Sie sich mit Sprachen, natürlichem Sprechen und den vielen außersprachlichen Faktoren beschäftigen, die Einfluss auf unsere Art zu sprechen nehmen, desto mehr grübeln Sie über die Komplexität des Kommunikationsprozesses. Wir alle sollten wirklich dankbar für jede erfolgreiche Konversation in unserem Leben sein.

Aktion #apdsiri: Muttersprachler vs. Nichtmuttersprachler

Nun, da Systeme wie Siri und Alexa ausgereift genug sind, um von ihrem Entwicklungsnest aus Einzug in unseren Alltag zu halten, können wir alle mit diesen Systemen experimentieren. Ein gutes Beispiel hierfür ist die Kampagne #apdsiri des Alumniportals Deutschland beim DAAD-Stipendiatentreffen zum Thema Künstliche Intelligenz im Juni 2019, bei dem Teilnehmer, sowohl deutsche Muttersprachler als auch Nichtmuttersprachler, Siris Fähigkeit, Zungenbrecher richtig zu erkennen, auf die Probe stellten. Natürlich soll mit diesem Versuch nicht der steinige Weg der Entwicklung und Computerforschung verkannt werden, der erforderlich war, um solche Systeme für die breite Masse zugänglich zu machen und für eine hocheffiziente Funktionsweise zu sorgen. Allerdings haben die Entwickler offenbar nicht damit gerechnet, dass Siri mit dem Ausdruck „Tschechisches Streichholzschächtelchen“ konfrontiert werden könnte, der einmal als „Check me tschüss 2018 Hessen” und einmal als „Tschechisches drei Kreuzberg” erkannt wurde.

Für einen deutschen Muttersprachler war es dagegen kein Problem, den Zungenbrecher zu verstehen. Aber warum ist das der Fall? Es gibt diverse Gründe, warum Menschen in dieser Hinsicht mehr leisten können als Maschinen. Zum einen behandelt eine automatische Spracherkennung natürliche Sprache als Sequenz von Sprachlauten gleicher Qualität. In der Realität haben viele Faktoren Einfluss darauf, wie jedes einzelne dieser kleinsten Sprachsegmente klingt, z. B. ob es am Ende oder Anfang eines Wortes steht oder ob die Lautäußerung betont oder unbetont ist. Zum anderen sprechen wir in Abhängigkeit von der Situation unterschiedlich. Achten Sie einmal darauf, wie deutlich Sie vor Publikum sprechen, während Ihre Sprache am frühen Morgen, wenn Sie auch noch in Eile sind, eher unverständlich ist. Wir bemerken diese Nuancen nicht, weil wir bereits die ersten Laute, die wir wahrnehmen, mit der potenziellen Bedeutung des Wortes verknüpfen und Sprache damit auf lexikalischer Ebene verarbeiten. Eine Kuriosität bei der Interaktion mit Systemen wie Siri ist die Tatsache, dass viele Nutzer glauben, am besten überdeutlich mit der Software sprechen zu müssen, also langsam und mit vielen Pausen. Nun denken Sie einmal darüber nach, wie stark derartige Äußerungen von der natürlichen Sprache abweichen, die als Datengrundlage für das „Training“ intelligenter Systeme verwendet wird.

Aktion #apdsiri: Die Ergebnisse

Variationlinguistik und sprachübergreifender Einfluss

Die Problematik, die das Behandeln von Sprache als Abfolge von invarianten Sprachlauten mit sich bringt, wurde bereits von den Entwicklern von Spracherkennungssystemen erkannt, wobei auch Erkenntnisse aus dem Bereich der Variationslinguistik hilfreich waren. In Deutschland könnte man Sie beispielsweise in einem Geschäft fragen, woher Sie kommen – nicht, weil man Ihren ausländischen Akzent wahrgenommen hat, sondern weil man gehört hat, dass Sie nicht aus der Gegend um Köln kommen. Auch unser sozialer Status, Alter und andere gesellschaftliche Faktoren beeinflussen die Art und Weise, wie wir sprechen. Je mehr wir über die Sprachvariationen verursachenden Faktoren, den Grad der Sprachvariation auf allen sprachwissenschaftlichen Ebenen und die Auswirkungen dieser Faktoren auf Sprachlaute wissen, desto präziser sind die Informationen, die das automatische Spracherkennungssystem lernt.

Damit Siri voraussagen kann, wie die Sprache eines Nichtmuttersprachlers von den Erwartungen des Systems abweicht, kann das System mithilfe der Forschungserkenntnisse zum sprachübergreifenden Einfluss auf die sprachlichen Merkmale vorbereitet werden, die sich wahrscheinlich von der Aussprache eines Muttersprachlers unterscheiden. Interessanterweise ist das aber nicht so leicht, wie es klingt. Erstens beeinflussen nicht nur die Muttersprache oder Muttersprachen des Sprechers, wie dieser in der Fremdsprache spricht. Auch die Sprachen, die Sie bisher gelernt haben, z. B. zehn Jahre Englischunterricht in der Schule, beeinflussen, wie Sie Deutsch sprechen, obwohl Ihre Muttersprache Italienisch ist. Zweitens bedeutet sprachübergreifender Einfluss nicht einfach, dass die bisher erworbenen und erlernten Sprachen Ihre neue Sprache beeinflussen, sondern auch, dass Ihre neue Fremdsprache bereits bestehende Sprachsysteme instabil werden lässt und damit potenziellen Einfluss auf die Art hat, wie Sie Ihre Muttersprache sprechen. Diese Hintergrundinformation hilft Menschen auch dabei, Sprache besser zu verarbeiten.

„The Probability Battle“

Lassen Sie uns noch einmal zu unserem Beispiel zurückkehren, in dem Siri die Spracheingabe „hybrid dogs“ eines Nichtmuttersprachlers fälschlicherweise als „pirate dogs“ erkannt hat. Dieses Beispiel stammt aus meiner früheren Forschung, in der ich die Sprachanpassungsstrategien von Nichtmuttersprachlern analysierte, die mit einer britischen Version von Siri interagierten. Nachdem ich Daten von englischsprechenden russischen Muttersprachlern erhoben hatte, bat ich einen englischen Muttersprachler, die Stärke des Akzents der Sprachproben zu bewerten. Das Ergebnis war, dass die Person, deren Äußerungen von Siri oft missverstanden wurden, die niedrigstmögliche Bewertung hatte. Das bedeutet, dass es hier kaum Merkmale gab, welche die Sprache des Nichtmuttersprachlers von der des Muttersprachlers unterschieden. Zudem wurden die englischen Muttersprachler vom System ebenfalls ab und zu missverstanden, wenn sie dieselbe Frage stellten.

Bei dem Versuch, einen kompletten Satz korrekt zu erkennen, kann vielerlei schief gehen. Siri nutzt Algorithmen, um die wahrscheinlichste Kombination der Sprachlaute und Wörtern zu schätzen, die Sie geäußert haben. „Tschechisches Streichholzschächtelchen“ wurde als weniger wahrscheinliche Spracheingabe eingeschätzt. Stattdessen machte „Check me tschüss 2018 Hessen“ das Wahrscheinlichkeitsrennen. Im Deutschen gibt es nominale Komposita, die aus mehreren Wörtern bestehen. Das System könnte also besondere Probleme bei der Verarbeitung langer Nomen haben. Aber wie verarbeiten Muttersprachler Komposita? Behandeln sie sie als eine Einheit oder eine Kombination aus mehreren Einheiten? Psycholinguistische Studien zu nominalen Komposita könnten für dieses Problem der automatischen Spracherkennung ebenfalls neue, hilfreiche Erkenntnisse bieten.

Zungenbrecher Duell: Deutschland vs. USA

Auch das Alumniportal Team hat sich an die #Zungenbrecher getraut. Dabei ist ein Duell entstanden! Wer gewonnen hat? Seht ihr im Video! #apdsiri

Hand in Hand: Die zukünftigen Möglichkeiten für KI und Sprachwissenschaft

Automatische Spracherkennungstechnologie sollte Hand in Hand mit der sprachwissenschaftlichen Forschung arbeiten. Heutzutage sind KI-Technologien allgegenwärtig und sprachwissenschaftliches Wissen kann in vielen Bereichen nützlich sein, z B. für intelligente Sprachlehrsysteme. Natürliche Sprachsynthese kann Menschen helfen, die ihre Stimme verlieren oder bereits verloren haben, eine künstliche Version ihrer eigenen Stimme zu erhalten. Menschen, die die Sprache ihres aktuellen Aufenthaltslandes noch nicht sprechen, könnten sich Webseiten und Dokumente übersetzen lassen. Außerdem gibt es KI-basierte Systeme, die in der Lage sind, selbst Sprachen zu lernen. Die Gestaltung von Sprachlernsystemen bietet Sprachwissenschaftlern wichtige Erkenntnisse im Bereich des Spracherwerbs, bei dem die Mechanismen des unüberwachten Erlernens von Sprache bei Kindern erforscht wird. Wir kommen zu dem Schluss, dass es unzählige Möglichkeiten für Sprachwissenschaftler gibt, ihre Kenntnisse und Fähigkeiten anzuwenden, und dass interdisziplinäre Forschungsprojekte unser Verständnis davon, was in der Sprachwissenschaft möglich ist, nachhaltig voranbringen wird.

Juli 2019

Jetzt kommentieren