SprunGTauben

Freitag, 27. März 2026

1.4. Halluzinationen und Bullshit

Dieser Eintrag ist Teil eines Portfolioprojekts namens Mensch, Maschine und Sprache. Wenn ihr mehr darüber wissen wollt, schaut mal rechts bei der Seite "Mensch, Maschine und Sprache" vorbei!

─────𓅪─────

Manchmal passiert es, dass LLMs wie ChatGPT oder DeepSeek falsche Antworten geben, Befehle missachten oder sich sogar Fakten ausdenken. Sowohl in der Forschung als auch in populärwissenschaftlichen Artikeln wird dann häufig davon gesprochen, dass die Sprachmodelle „halluzinieren“ — sie generieren Antworten, die faktisch falsch oder widersprüchlich sind. Huang et al. haben sich mit diesen Fehlleistungen der LLMs, den Ursachen und den möglichen Lösungen auseinandergesetzt. Sie definieren Halluzinationen von LLMs als „generated content that is either nonsensical or unfaithful to the provided source content“, wobei zwischen den zwei Kategorien „factuality hallucination“ (faktische Unstimmigkeiten) und „faithfulness hallucination“ (Abweichung von Befehlen oder fehlende Kohärenz) unterschieden wird (Huang et al. 2024: 2). Dadurch, dass die generierten Texte der Sprachmodelle so menschlich und plausibel klingen, ist es schwierig, diese Fehler zu erfassen, sodass Fehlinformationen verbreitet werden können und sogar Schaden angerichtet werden kann (vgl. Huang et al. 2024: 2).

1.3. Die Umweltkosten der hungrigen LLMs

Dieser Eintrag ist Teil eines Portfolioprojekts namens Mensch, Maschine und Sprache. Wenn ihr mehr darüber wissen wollt, schaut mal rechts bei der Seite "Mensch, Maschine und Sprache" vorbei!

─────𓅪─────

Die ungreifbare Kraft und Rechenleistung von LLMs kommen nicht aus dem nirgendwo. Die „Cloud“ ist kein abstraktes Netz im Himmel, sondern fest in riesigen Datenzentren verankert (die meisten in den USA), die riesige Mengen an Energie und Kühlwasser benötigen, um einwandfrei zu funktionieren. Im Zuge der Klimakrise ist es unabdingbar, diese Kosten bei der Entwicklung und Erhaltung von LLMs mit einzuberechnen und auf nachhaltigere Energiequellen umzusteigen (vgl. Bender et al. 2021: 613). Dabei sind die hohen Preise und negativen Konsequenzen der energiehungrigen Datenzentren bereits jetzt sowohl auf großer als auch auf kleiner Skala zu sehen. In einem Interviewmit BBC berichtet eine Frau, neben deren Haus ein Datenzentrum für Meta gebaut wurde, wie ihr Wasser seitdem verschmutzt ist. Sie kann es nicht mehr trinken und durch den niedrigen Wasserdruck muss sie Eimer mit Wasser benutzen, um ihre Toilettenspülung betätigen zu können.

1.2. Bedeutung in Sprache

Dieser Eintrag ist Teil eines Portfolioprojekts namens Mensch, Maschine und Sprache. Wenn ihr mehr darüber wissen wollt, schaut mal rechts bei der Seite "Mensch, Maschine und Sprache" vorbei!

─────𓅪─────

Mit der zentralen Frage, ob große Sprachmodelle Sprache verstehen können und ob sie die Bedeutung der Wörter, die sie generieren, kennen, haben sich Emily Bender und Alexander Koller beschäftigt. An einem Gedankenexperiment illustrieren sie ihre These, dass ein System, das ausschließlich mit der Form von Sprache trainiert wurde, Bedeutung nicht lernen kann (vgl. Bender & Koller 2020: 5187). Obwohl der Artikel für des Feld der LLM-Recherche relativ alt ist und einige Postulate anfechtbar sind, ist es dennoch wertvoll, ihren Gedanken zu folgen.

1.1. Sprachideologien in Large Language Modellen

Dieser Eintrag ist Teil eines Portfolioprojekts namens Mensch, Maschine und Sprache. Wenn ihr mehr darüber wissen wollt, schaut mal rechts bei der Seite "Mensch, Maschine und Sprache" vorbei!

─────𓅪─────

Um genauer betrachten zu können, wie die Verbindung zwischen LLMs und Sprache ist, muss einerseits zuerst klargestellt werden, wie LLMs funktionieren, und andererseits eine Definition von Sprache festgelegt werden. LLMs, wie beispielsweise ChatGPT oder DeepSeek, sind „generative pretrained transformers“, sie generieren also Text, indem sie große Mengen an Trainingsdaten analysieren und die Wahrscheinlichkeiten errechnen, dass ein Wort auf einen Text folgt (3Blue1Brown 2024: 0:15–0:21). Dabei berechnen die Computer nicht nur die höchste Wahrscheinlichkeit eines einzigen Tokens (Wort), sondern von allen möglichen Wörtern (vgl. 3Blue1Brown 2024: 0:37–0:55). Diese Ergebnisse werden dann von Menschen einzeln gefiltert, bewertet und korrigiert — was stark mit Ausbeutung verbunden ist: z.B. hat OpenAI, die Firma von ChatGPT, Arbeiter:innen in Kenia weniger als $2 pro Stunde bezahlt, um Ergebnisse von ChatGPT nach expliziten Inhalten zu filtern, die Gewalt, Vergewaltigung und andere traumatisierende Theme explizit thematisieren (vgl. Perrigo 2023). Hinter dem Hype um KI stecken also auch dunkle Seiten.

Das (historische) Märchen vom einsprachigen Brasilien (BR)

Im Rahmen meines Austauschs an der UNICAMP in Campinas (Brasilien) ist unter anderem dieser kleine Essay entstanden (in einem Sprachpolitikseminar), und wie Kat angemerkt hat, passt der ja eigentlich auch ganz gut in diesen Blog. Ich hoffe, das lässt sich halbwegs gut mit automatischer Übersetzung lesen, ansonsten lade ich gerne eine Übersetzung hoch.

─────𓅪─────

O conto do Brasil monolíngue - uma análise do "Diretório dos Índios"

Frequentemente, o Brasil é apresentado, tanto em contextos nacionais quanto internacionais, como um país monolíngue. É só à segunda vista (ou estudando linguística) que se tende a perceber que essa perspectiva não poderia estar mais afastada da realidade do país. Descartando as consequências da imigração durante os últimos séculos, que acrescentou línguas como o italiano, o alemão, o japonês, o espanhol (todas com suas respectivas variedades dialetais), ou mesmo as línguas inglesa e francesa, que têm desempenhado funções importantes como línguas estrangeiras ensinadas nas escolas durante as últimas décadas, vamo-nos focar em línguas que possuem raízes históricas que vão muito mais além do mesmo português: Nas línguas indígenas do Brasil, que já muito antes da invenção do que hoje é o Brasil, constituíram esse território como multilíngue.

Prinz*essinnen der französischen Märchen

Märchen voller Magie, Feen, Prinzessinnen und Verwandlungen – nahezu jedes Kind wächst mit ihnen auf. Welche Version man jedoch vorgelesen bekommt, unterscheidet sich häufig, früher noch stärker als heute. Besonders die französischen Märchentraditionen des 18. Jahrhunderts prägten die Entwicklung moderner Märchenerzählungen maßgeblich. Im Folgenden werden zwei zentrale Autor:innen dieser Zeit und die charakteristischen Merkmale der französischen Märchentradition vorgestellt.

─────𓅪─────

Freitag, 27. März 2026

1.4. Halluzinationen und Bullshit

Samstag, 21. März 2026

1.3. Die Umweltkosten der hungrigen LLMs

Freitag, 13. März 2026

1.2. Bedeutung in Sprache

Freitag, 6. März 2026

1.1. Sprachideologien in Large Language Modellen

Donnerstag, 8. Januar 2026

Das (historische) Märchen vom einsprachigen Brasilien (BR)

O conto do Brasil monolíngue - uma análise do "Diretório dos Índios"

Dienstag, 23. Dezember 2025

Prinz*essinnen der französischen Märchen

1.4. Halluzinationen und Bullshit