Machine Learning

Die Muttersprache der Daten: Die eingebaute Diskriminierung von KI

21.02.2023 Ob Sprachsteuerungen, Chatbots, Diktier- oder Übersetzungsprogramme - viele Menschen nutzen inzwischen täglich Software, die natürliche Sprache verarbeiten kann. Was dabei auffällt: Am besten funktionieren all diese Anwendungen erfahrungsgemäß auf Englisch. Das hat Gründe - aber vor allem Folgen. Das Ungleichgewicht in der Welt verschiebt sich mehr zuungunsten schwacher Staaten.

Bild: Maps For Free/Pixabay

Als deutscher Muttersprachler ist man noch relativ gut dran, sagt Dietrich Klakow

, Professor für Spoken Language Systems an der Universität des Saarlandes

. Denn die meisten IT-Sprachanwendungen funktionierten auch auf Deutsch recht gut. "Aber es stimmt, viele Systeme im Bereich der Sprachverarbeitung arbeiten nach wie vor auf Englisch am besten", bestätigt der Professor, der am Saarland Informatics Campus forscht.

Ausschlaggebend dafür seien vor allem zwei Gründe

Zum einen basieren die meisten Anwendungen der computergestützten Sprachverarbeitung auf dem Maschinellen Lernen, einem Teilgebiet der Künstlichen Intelligenz. "Beim Maschinellen Lernen sagt nicht ein Programmierer dem Algorithmus ganz genau, was er zu tun hat, sondern trainiert ihn mit massenhaft Daten, aus denen der Algorithmus selbstständig lernen kann", erklärt Dietrich Klakow. Und genau hier liegt der erste Grund: Englisch ist die meistgesprochene Sprache der Welt, somit sind auch die meisten verfügbaren Trainingsdaten auf Englisch. "Zudem ist das Englische grammatikalisch vergleichsweise einfach gestrickt, weshalb Computer gut damit zurechtkommen", so Klakow.
Der zweite Grund seien die Forscher selbst: "Die Wissenschaft ist ein internationales Arbeitsfeld, deshalb ist die Arbeitssprache in der Regel Englisch - auch in der Informatik. Wenn man also etwas Neues erforscht oder entwickelt, so tut man dies auf eine Weise, die für die Kolleginnen und Kollegen gut nachvollziehbar ist. Deshalb arbeiten und publizieren die meisten Forscherinnen und Forscher auf Englisch", sagt Klakow. Dies führe wiederum dazu, dass viele Anwendungen zunächst auf Englisch entwickelt würden - das erste maschinell übersetzte Sprachenpaar war Englisch-Französisch. Die erste synthetisch erzeugte Stimme war eine Software, die englische Zeitungsartikel vorgelesen hat. "Die meisten Anwendungen haben einen mehrjährigen Vorsprung auf Englisch. Und die großen europäischen Sprachen werden in der Regel zuerst nachgezogen", erläutert der Professor.

Was aber ist mit kleineren Sprachen, die nur wenige Sprecher haben? "Mit Abstand die meisten Sprachen der Welt werden gar nicht unterstützt. Es gibt rund 7000 Sprachen, von denen wiederum nur rund 400 mehr als eine Million Sprecher haben - und selbst diese 400 sind nicht alle umfassend genug erforscht, um in Anwendungen mit natürlicher Sprache verwendet zu werden", sagt Klakow. Der "Google Übersetzer", der einen guten ersten Einblick in die computerlinguistisch erforschten Sprachen geben kann, unterstützt Stand Februar 2023 insgesamt 133 Sprachen auf verschiedenen Niveaustufen.

Ein wesentlich schwerwiegenderes Problem als kleine Sprachen, die nicht ausreichend computerlinguistisch erforscht werden, sind sehr weit verbreitete Sprachen, die kaum oder gar nicht unterstützt werden. Denn hier gehe es ganz schnell um global-gesellschaftlich relevante Fragestellungen der digitalen Teilhabe, sagt Dietrich Klakow. "Viele afrikanische Sprachen zum Beispiel, die ohne weiteres zehn bis 50 Millionen Muttersprachler haben, können kaum oder nur sehr schlecht von Computern verarbeitet werden", sagt der Professor.

Diese KI-Sprachfähigkeiten könnten sich in Zukunft jedoch weiterentwickeln, so Klakow: "Durch effizientere Machine-Learning-Modelle, die weniger Trainingsdaten benötigen, oder durch bessere Methoden, um Trainingsdaten künstlich erzeugen zu können, werden zukünftig sicherlich noch mehr Sprachen in ihrer maschinellen Verarbeitung auf ein 'produktreifes' Niveau gehoben werden. Ich schätze, in zehn bis 15 Jahren könnten die 400 verbreitetsten Sprachen allesamt dieses Level erreicht haben." Dass jemals alle Sprachen der Welt gleich gut funktionieren werden, hält er hingegen für ausgeschlossen: "Es wird niemals genügend Trainingsdaten geben, um beispielsweise ein 'Zulu-ChatGPT' zu programmieren. In dieser Hinsicht wird das Englische wahrscheinlich immer die Nase vorn haben", resümiert der Professor.

Verwandte Beiträge zu diesem Beitrag

Wo Kommunikatoren bereits heute Künstliche Intelligenz einsetzen

02.03.2023

Prognose 2033: So überlebt der Mittelstand in der Daten-Ökonomie

15.02.2023

alle Veranstaltungen Webcasts zu diesem Thema:

Bild: Jacqueline Althaller

Jacqueline Althaller
(Althaller Communication)

Social Media in der B2B Kommunikation: Kommunikation wird globaler - KI im B2B angekommen

Der Vortrag bietet Einblicke in die zentralen Erkenntnisse der aktuellen B2B Social Media Langzeitstudie 2024/25 - der einzigen ihrer Art im DACH-Raum. Im Fokus stehen aktuelle Trends der B2B-Kommunikation, der verstärkte Einsatz von Künstlicher Intelligenz und deren Auswirkungen auf Strategie, Content und Rollenbilder. Darüber hinaus ermögliche ich den Teilnehmern einen exklusiven Einblick in unser "My Social GPT" Tool, welches als völlig marktneue Beratungsform, in nur 30 Minuten individuelle Fragen beantwortet und datenbasierte Handlungsempfehlungen liefert.

Vortrag im Rahmen der KI in der Kundenkommunikation 25. am 27.05.25, 10:30 Uhr

Dienstleister-Verzeichnis Agenturen/Dienstleister zu diesem Thema:

LOXXESS AG

Die LOXXESS AG ist ein spezialisierter Logistikdienstleister mit Schwerpunkt auf komplexe Outsourcing-Projekte in Industrie und Handel. Das mittelständische, familiengeführte Unternehmen entwickelt für seine Kunden maßgeschneiderte Lösungen in den Bereichen Kontraktlogistik, Value-Added-Services und Fulfillment.

Unternehmensprofil ansehen

Experten-Profile Genannte Personen:

Dietrich Klakow

Relation Browser Tags/Schlagwörter und Unternehmen:

sprachekikünstliche intelligenzmachine lean´ning

uni-saarland.de

Die Muttersprache der Daten: Die eingebaute Diskriminierung von KI

Wo Kommunikatoren bereits heute Künstliche Intelligenz einsetzen

Prognose 2033: So überlebt der Mittelstand in der Daten-Ökonomie

Social Media in der B2B Kommunikation: Kommunikation wird globaler - KI im B2B angekommen

LOXXESS AG

Anmelden/Registrieren