SprunGTauben: 1.1. Sprachideologien in Large Language Modellen

Dieser Eintrag ist Teil eines Portfolioprojekts namens Mensch, Maschine und Sprache. Wenn ihr mehr darüber wissen wollt, schaut mal rechts bei der Seite "Mensch, Maschine und Sprache" vorbei!

─────𓅪─────

Um genauer betrachten zu können, wie die Verbindung zwischen LLMs und Sprache ist, muss einerseits zuerst klargestellt werden, wie LLMs funktionieren, und andererseits eine Definition von Sprache festgelegt werden. LLMs, wie beispielsweise ChatGPT oder DeepSeek, sind „generative pretrained transformers“, sie generieren also Text, indem sie große Mengen an Trainingsdaten analysieren und die Wahrscheinlichkeiten errechnen, dass ein Wort auf einen Text folgt (3Blue1Brown 2024: 0:15–0:21). Dabei berechnen die Computer nicht nur die höchste Wahrscheinlichkeit eines einzigen Tokens (Wort), sondern von allen möglichen Wörtern (vgl. 3Blue1Brown 2024: 0:37–0:55). Diese Ergebnisse werden dann von Menschen einzeln gefiltert, bewertet und korrigiert — was stark mit Ausbeutung verbunden ist: z.B. hat OpenAI, die Firma von ChatGPT, Arbeiter:innen in Kenia weniger als $2 pro Stunde bezahlt, um Ergebnisse von ChatGPT nach expliziten Inhalten zu filtern, die Gewalt, Vergewaltigung und andere traumatisierende Theme explizit thematisieren (vgl. Perrigo 2023). Hinter dem Hype um KI stecken also auch dunkle Seiten.

Britta Schneider setzt sich mit der Sprache von LLMs, deren impliziten Sprachideologien und den daraus folgenden Konsequenzen auseinander. Schneider definiert Sprache als „the culturally specific, materially grounded, and socially stratified outcomes of human interactional practice“ (Schneider 2024: Absatz 5). Diese soziolinguistische Ansicht ist nicht nur interessant, sie ist auch die Basis für ihre Kritik an die LLM-Entwickler:innen und deren Vorstellungen von Sprache und Sprachmodellen. Wenn Sprache als ein Resultat zwischenmenschlicher, körperlicher Praktiken verstanden wird, die nicht nur Informationen weitergeben sollen, sondern auch soziale Dynamiken darstellen und von Kultur zu Kultur unterschiedlich sind, kann nicht geleugnet werden, dass LLMs nicht „sprechen“ und natürliche Sprachen nicht reproduzieren können. Der generierte Text beruht auf Datensätzen, auf Binärcode; die Maschinen arbeiten also ausschließlich mit der Form von Sprache, nicht aber mit dem Inhalt — die Verbindung mit der Realität geht somit verloren.

Dass Sprache kein neutrales, fest standardisiertes System ist, sondern ideologisch und hegemonisch beeinflusst ist und sich ständig wandelt, ist ein wichtiges Thema, wenn die Frage aufkommt, welche Ideologien die Sprache der LLMs reproduzieren. Beispielsweise können Kreolsprachen oder Gebärdensprachen nicht (komplett) von Sprachmodellen erfasst werden. Kreolsprachen (anders als der idealisierte Standard vieler westlicher Sprachen) sind größtenteils auf Mündlichkeit basierte Sprachen, die Kreativität und Selbstausdruck einen hohen Stellenwert geben und daher Normierung und Standardisierung ablehnen (vgl. Schneider 2024: Absatz 3). LLMs basieren jedoch auf einem genormten, festen Konzept von Sprache und können die Kreolsprachen nie komplett in Daten erfassen. Auch Gebärdensprachen unterliegen einer ähnlichen erasure [1], da sie nicht in Daten umwandelbar sind und daher für Sprachmodelle nicht als Sprache zählen können. Eine der vielen mitschwingenden Sprachideologien ist also, dass Kreolsprachen und Gebärdensprachen nicht Sprachen sein können, die in den LLMs auftauchen, und daher für diese Menschengruppen nicht zugänglich sind. Anders gesagt: „LLMs are neither neutral nor ahistorical; they are deeply sociopolitical technologies that, in their present form, enforce hegemonic language practices and ideologies“ (Schneider 2024: Absatz 17).

[1] Erasure definiere ich hier folgendermaßen: „Erasure is the process in which ideology, in simplifying the sociolinguistic field, renders some persons or activities (or sociolinguistic phenomena) invisible“ (Irvine & Gal 2000: 38).

─────𓅪─────

Ein Beitrag von Daphne Glinzig

Freitag, 6. März 2026

1.1. Sprachideologien in Large Language Modellen

Keine Kommentare:

Kommentar veröffentlichen

1.4. Halluzinationen und Bullshit