Regionalsprachen sind „blinde Flecken“ in der Spracherkennung. Marburger Forscher untersuchen aber bereits, wie die „KI“ Dialekte lernen kann.
Wer schon mal in der telefonischen Warteschleife mit der KI Schwäbisch gesprochen hat oder Bairisch, der weiß: Die Aussicht auf Erfolg ist gering. Das konstatieren rund 35 Wissenschaftlerinnen und Wissenschaftler aus sieben Ländern unter Federführung des „Forschungszentrums Deutscher Sprachatlas“ (DSA) an der Philipps-Universität Marburg in einem Positionspapier zur „Zukunft der Regionalsprachenforschung“. Denn Sprachmodelle werden nur mit Texten und Aufnahmen in Standardsprache trainiert.
Die Folge ist eindeutig: Dialekte und Regionalsprachen sind im digitalen Raum weitgehend unsichtbar. Um das zu ändern haben die Autor*innen aus den Forschungsbereichen Regionalsprachenforschung, Computerlinguistik und KI-Forschung das „Netzwerk Regionale Sprache und Künstliche Intelligenz“ gegründet. Sie wollen die Potenziale von KI nutzen, die kulturelle Vielfalt abbilden und die digitale Transformation gestalten.
„Dialekte sind kein Randphänomen“, erklärte Prof. Dr. Alfred Lameli. „Sie sind Träger kultureller Identität und Ausdruck regionaler Zugehörigkeit für Millionen von Menschen. Wenn KI-Systeme diese sprachliche Vielfalt nicht erkennen, nicht analysieren und nicht authentisch abbilden können, dann bleibt ein zentraler Teil unseres kulturellen Erbes im digitalen Raum schlicht unsichtbar. Wir haben als Regionalsprachenforschung die Expertise, das zu ändern – aber wir brauchen dafür bessere Daten, mehr Kooperation mit der KI-Forschung und Förderstrukturen, die langfristig angelegt sind.“
Lameli ist der Direktor des Sprachatlas. Für die Regionalsprachenforschung ergebe sich durch die rapide Entwicklung der KI-Technologie der letzten Jahre ein großes Innovationspotenzial. Zugleich komme dem Fach hinsichtlich der Repräsentation regionaler Sprache im digitalen Raum eine besondere Verantwortung zu. Denn Ziel sei, dass alle Menschen von digitalen Diensten und Dialogsystemen gleichbehandelt werden.
Derzeit werden ältere Menschen, die im Alltag Dialekt sprechen, oder Bewohner*innen ländlicher Regionen schlechter bedient als Menschen, die Hochsprache sprechen. „Das ist mehr als eine Unannehmlichkeit“, , betonte Lameli. „Es ist eine Frage gesellschaftlicher Teilhabe und kultureller Identität.“
Damit Sprachmodelle Dialekte und Regionalsprachen gut verarbeiten können, müssen die Daten standardisiert und digitalisiert vorliegen. Und da liegt nach Auffassung der Autor*innen das größte Problem: Zwar gibt es sehr viele Daten auch in internationalen Kontexten. Es fehlt aber an ausreichend großen Mengen an Daten, die rechtssicher zugänglich und nutzbar sind und in hoher Qualität aufbereitet wurden.
Notwendig ist eine einheitliche Digitalisierung nach den sogenannten „FAIR-Prinzipien“ Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Dazu gehören eine systematische Sammlung gesprochener Alltagssprache, umfassende Erschließung der Metadaten, offene Lizenzierung und auch die Aufbereitung historischer Bestände.
„Ein Ziel könnte ein Übersetzungstool für Dialekte sein“, erklärte Prof. Dr. Hanna Fischer. „Damit könnte es möglich werden, Dialekte in Sprachinseln zu erhalten und neu sichtbar werden zu lassen. Für das Training eines solchen Modells könnte der Datenbestand des Deutschen Sprachatlas eine entscheidende Grundlage bilden. Doch dafür müssen die vorhandenen Daten erst fit für die KI gemacht werden“, erläuterte die stellvertretende DSA-Direktorin.
Das „Forschungszentrum Deutscher Sprachatlas“ an der Philipps-Universität Marburg, das in diesem Jahr sein 150-jähriges Bestehen feiert, fungiert als Kontakt- und Koordinationsstelle des neu gegründeten Netzwerks. Mit einem der weltweit größten Bestände an regionalen Sprachdaten des Deutschen nimmt Marburg eine Schlüsselrolle dabei ein, wie diese einzigartigen Ressourcen für das KI-Zeitalter erschlossen werden können. Das Netzwerk wurde bei einem interdisziplinären Scoping-Workshop gegründet, der von der VolkswagenStiftung unterstützt wurde. Geleitet wurde der Workshop vom Deutschen Sprachatlas unter der Federführung von Prof. Dr. Hanna Fischer und Prof. Dr. Alfred Lameli. Aus Marburg war zudem der KI-Forscher Prof. Dr. Daniel Braun beteiligt.
* pm: Philipps-Universität Marburg