Es gibt eine neue, bemerkenswerte Studie zur AI-Literacy und es geht darin um den Fakt, dass Menschen mehr als Technikverständnis brauchen und bei AI mitdenken sollten. Diese Studie aus den USA und Großbritannien zeigt, wie leicht Menschen auf scheinbar faktenreiche KI-Antworten vertrauen, selbst wenn diese inhaltlich nicht korrekt sind (und diese Inkorrektheit sogar deutlich erkennbar sein sollte). Das ist kritisch, denn Künstliche Intelligenz liefert mal gute, mal durchwachsene oder gar schlechte Ergebnisse, kann dennoch in allen Fällen überzeugend klingen: Deshalb ist es wichtig KI immer zu reflektieren und die Ergebnisse auch auf Detailebene zu unterscheiden und anzupassen.
Im Blogpost geht es darum, was in dieser neuen Studie genau untersucht wurde, welche 19 GenAI-Modelle beteiligt waren und warum besonders faktenreiche, aber fehlerhafte Antworten oft als glaubwürdiger empfunden wurden. Du erfährst, was unter Human-in-the-Loop wirklich zu verstehen ist, und warum kritisches Denken zum wichtigsten Teil jeder KI-Nutzung wird. Und nur kurz vorweg: Diese Ergebnisse betreffen uns alle. Denn wer mit KI arbeitet – sei es im Coaching, in HR, in der Beratung oder im Training – braucht mehr als Tools. Er oder sie brauchen die Fähigkeit, zwischen “überzeugend”, “stimmig” oder “korrekt” zu unterscheiden (um selbst glaubwürdig und überzeugend, stimmig und korrekt zu bleiben.)
Inhaltsverzeichnis
- AI-Literacy beginnt mit Klarheit: Warum Fakten überzeugen – aber nicht immer stimmen
- Zusammenfassung der Studie:
- Die Kernergebnisse – übersetzt in den AI-Literacy Kontext
- Folgende Modellunterschiede hat die Studie aufgezeigt
- 1. Große Modelle hatten keinen automatischen Vorsprung
- 2. GPT-4o war besonders stark – mit Schwächen
- 3. Spezialisierte Modelle punkteten
- 4. Microtargeting spielte keine Rolle
- 5. Trade-off: Überzeugungskraft vs. Wahrheit
- Warum Human-in-the-Loop bei generativer KI unverzichtbar bleibt
- Ohne Human-in-the-Loop meist kein Qualitätscheck
- Das eigentliche Problem: Es ist nicht die KI, sondern wir
- Synthese: Menschen denken ähnlich wie die KI
- Was bedeutet das für uns – und für AI-Literacy im deutschsprachigen Raum?
- Was echte AI-Literacy jetzt braucht:
- Fazit und Bedeutung für AI-Literacy & Human-in-the-Loop
- Author
AI-Literacy beginnt mit Klarheit: Warum Fakten überzeugen – aber nicht immer stimmen
Diese Studie ist eine größten Studien zur Wirkung generativer KI. Es geht nicht um psychologische Tricks, sondern darum, dass Informationsfülle Sprachmodelle überzeugend macht.
Der Titel der Studie lautet „The Levers of Political Persuasion with Conversational AI“, veröffentlicht am 18. Juli 2025 auf arXiv. Die Arbeit stammt von Forschenden des UK AI Security Institute, der Universität Oxford, der LSE, Stanford und dem MIT – mit Erstautor Kobi Hackenburg und Co‑Seniorautoren David G. Rand und Christopher Summerfield HIER DOWNLOAD UNTER ARXIV
Fast 77.000 Teilnehmende in den USA und UK wurden mit politischen Argumenten konfrontiert, die von 19 verschiedenen GenAI-Modellen erstellt wurden, darunter GPT-4, Claude 3, Gemini, LLaMA 3 und andere.
Die Forschenden testeten 707 gesellschaftlich kontroverse Themen in variierenden Antwortstilen:
– kurz oder faktenreich
– moralisch oder rational
– personalisiert oder neutral
Das Ziel: herausfinden, welche Kombination am überzeugendsten wirkt – und warum.
Zusammenfassung der Studie:
| Thema | Details |
| Studie | The Levers of Political Persuasion with Conversational AI |
| Datum |
|
| Umfang | 76 977 Teilnehmende, 19 Sprachmodelle, 707 politische Themen |
| Wichtigste Erkenntnis | Informationsdichte und Post-Training (Reward Modeling, SFT) steigern Überzeugungskraft deutlich |
| Persuasionseffekt | Bis zu +27 % durch faktendichte Prompts, bis zu +51 % durch Post‑Training |
| Genauigkeit | Durchschnittlich 77 %; besonders überzeugende Varianten deutlich weniger |
| Trade-off | Mehr Überzeugung ≠ mehr Wahrheit |
| Implikation | Kleiner Modelle durch Post‑Training wettbewerbsfähig, aber öffentliches Debattenrisiko wegen Wahrheitseinbußen |
Die Kernergebnisse – übersetzt in den AI-Literacy Kontext
1. Mehr Fakten = mehr Überzeugung
Je faktenreicher ein Text, desto überzeugender wirkte er.
Die Zahl der belegten Aussagen korrelierte direkt mit der Wirkung – auch wenn manche Aussagen falsch waren.
Ergebnis: Menschen hielten Inhalte für glaubwürdig, weil sie strukturiert und kompetent wirkten.
2. Modellgröße ist zweitrangig
Nicht das größte Modell überzeugte automatisch am meisten.
Entscheidend war das Training – insbesondere, ob das Modell faktenreiche, strukturierte Antworten produzierte.
Ergebnis: Auch kleinere, gut abgestimmte Modelle konnten mithalten.
3. Faktenfülle senkt oft die Genauigkeit
Mehr Inhalt bedeutet nicht mehr Wahrheit.
Beispiel: GPT-4o überzeugte stark mit faktenreichen Antworten – aber nur 62 % der Aussagen waren korrekt (vs. 78 % bei Standardmodus).
Ergebnis: KI kann durch Quantität glänzen, ohne qualitativ besser zu sein.
4. Microtargeting (Personalisierung) brachte kaum Effekt
Die individuelle Anpassung an politische Überzeugungen brachte im Schnitt unter 1 % Unterschied.
Ergebnis: Es zählt nicht das psychologische Feintuning, sondern wie glaubwürdig die Inhalte wirken.
Folgende Modellunterschiede hat die Studie aufgezeigt
Das erstaunliche ist, dass die Modelle, die “eloquenter eingestuft” wurden, nicht grundsätzlich anders gepunktet haben:
1. Große Modelle hatten keinen automatischen Vorsprung
- Größe allein war nicht der entscheidende Faktor.
- Training und Informationsfülle bestimmten die Überzeugungskraft mehr als reine Modellkapazität.
- Ein kleines Modell wie Llama-3.1-8B konnte nach gezieltem Post-Training fast genauso gut überzeugen wie GPT-4-basierte Systeme.
2. GPT-4o war besonders stark – mit Schwächen
- GPT-4o erzielte bei faktenreichen Prompts sehr hohe Überzeugungskraft.
- Aber: Die Genauigkeit sank von etwa 78 % auf nur noch 62 %.
- Heißt: GPT-4o kann in dichten Texten glänzen, aber „halluziniert“ dabei öfter.
3. Spezialisierte Modelle punkteten
- Modelle, die nachtrainiert wurden (Reward Modeling, Supervised Fine-Tuning), steigerten ihre Wirkung massiv – teilweise um 50 % und mehr.
- Auch kleinere, fokussierte Modelle erreichten durch intelligentes Training Top-Level.
4. Microtargeting spielte keine Rolle
- Personalisierte Argumente hatten kaum Effekt – weniger als 1 % Unterschied.
- Für Überzeugung zählt nicht, ob der Text perfekt auf das Profil des Gegenübers abgestimmt ist, sondern wie fundiert er klingt.
5. Trade-off: Überzeugungskraft vs. Wahrheit
- Je stärker das Modell auf Überzeugung optimiert war, desto häufiger wurden ungenaue oder fehlerhafte Fakten produziert.
- Dieser Qualitätsverlust war bei allen Modellen messbar, aber bei größeren Sprachmodellen besonders deutlich.

Warum Human-in-the-Loop bei generativer KI unverzichtbar bleibt
Die Ergebnisse der Studie zeigen deutlich: KI kann durch Sprachmuster und Faktenfülle so überzeugend wirken, dass viele Menschen nicht mehr nachfragen, sondern nur noch übernehmen. Das ist gefährlich, denn wie die Studie auch zeigt, ist die durchschnittliche Genauigkeit der KI nur bei 66%. Das mag für Texte oder einfache Briefe und Schreiben kein Problem sein und beim kreativen Arbeiten sogar ein Vorteil durch Varianz sein: Doch für die Fälle, wo es um Daten und Fakten geht (und in dieser Studie stand da im Vordergrund) kann das ein großes Problem sein.
Gerade weil KI dazu neigt, auch in Zwischenschritten, Änderungen einzufügen, Fakten zu erfinden oder gar wegzulassen, gibt und braucht es einen klaren Gegenpol zur Qualitätskontrolle oder auch nur zum “Check”: Der Mensch bleibt im Denkprozess aktiv.
In der Integration von KI und Automatisierung heißt das Prinzip Human-in-the-Loop – also: Der Mensch bleibt im Regelkreis, überprüft und vertraut den KI-Ergebnissen nicht ohne Kontrolle: Er checkt die Vorschläge der KI, entscheidet bewusst, und bringt Kontext und ethisches Empfinden mit ein. Wobei hier besonders wichtig ist: Das erfordert auch fundierte Kenntnis der Funktionsweise der KI sowie der Steuerungsmöglichkeiten über Prompting bzw. Automatisierungen: Wir sprechen also bei Human-in-the-Loop von einem Bestandteil der KI-Literacy
Ohne Human-in-the-Loop meist kein Qualitätscheck
In der Arbeit mit Generativer KI ist das der Qualitätscheck entscheidend: Man sagt, bei jedem Schritt einer Zusammenarbeit kann es eine Abweichung von 2-10 % geben – wer hier nicht eingreift, hat am Ende so intensive Abweichungen, dass es kein Zurück mehr gibt und man von vorne anfangen kann. Dazu kommen folgenden Fakten, die gern ignoriert werden, weil man Generative KI fälschlicherweise schon für (alleine) intelligent hält und deshalb menschliche Eigenschaften zuordnet:
- KI kann formulieren und nicht wirklich rechnerisch bewerten
- KI kann simulieren, empathische Antworten geben – und nicht ehrlich fühlen.
- KI kann überzeugen, weil sie Argumentationen gelernt hat – aber nicht wissen, ob sie irrt.
Es geht also darum, nicht um komplettes Vertrauen – schon gar nicht bei Automatsierungen, sondern aktiv mitdenken.
AI-Literacy heißt deshalb auch: Den Loop offen halten und damit selbst eingreifen
Wer KI nutzt, bleibt beteiligt – nicht nur beim Prompten, sondern vor allem beim Einordnen, Hinterfragen und Übersetzen ins echte Leben.
Das eigentliche Problem: Es ist nicht die KI, sondern wir
Die aktuelle Studie zeigt deutlich: Sprachmodelle wirken überzeugend, wenn sie viele Fakten präsentieren – selbst wenn ein Teil dieser Fakten schlicht falsch ist. Aber dieser Mechanismus ist kein neues Phänomen: Es ist zutiefst menschlich und sehr bekannt.
Schon lange belegen psychologische Modelle wie das Elaboration Likelihood Model oder das Heuristic-Systematic Model, dass Menschen Informationen oft nicht tiefgehend prüfen. Stattdessen nutzen wir Abkürzungen:
-
Wenn etwas umfangreich und strukturiert klingt, erscheint es automatisch glaubwürdiger.
-
Wenn Argumente mehrfach wiederholt werden, entsteht der Eindruck, sie müssten korrekt sein – der sogenannte Illusory Truth Effect.
-
Wir bewerten Argumente stärker nach ihrem plausiblen oder gewünschten Ergebnis – nicht nach ihrer Argumentstärke: der Belief Bias.
- Selbst wenn wir neue Fakten bekommen, bleiben viele an ihre ursprüngliche Meinung gebunden: Belief Perseverance.
Kurz: Wir sind anfällig für Quantität, Tonalität und Wiederholung – nicht unbedingt für Qualität.
Das erklärt auch, warum nicht nur KI-Texte, sondern auch viele menschliche Veröffentlichungen, von Social-Media-Posts bis zu wissenschaftlich anmutenden Studien, unkritisch geglaubt werden. Nicht, weil sie richtig sind, sondern weil sie nach „Wahrheit“ aussehen, oder genauer gesagt: “nach unserer Wahrheit aussehen”.
Synthese: Menschen denken ähnlich wie die KI
Genau wie die Studie zeigt, dass KI durch Fülle an „Fakten“ überzeugend wirkt – zeigt sich bei Menschen dasselbe:
-
Wir lassen uns von umfangreichen Informationen beeindrucken, auch wenn sie nicht überprüft wurden.
-
Oberflächliche Verarbeitung steigt bei Informationsüberflutung – oft fehlt die Kapazität zur kritischen Prüfung.
-
Wiederholung, Vielzahl und Plausibilität schlagen Faktenqualität.
Was bedeutet das für uns – und für AI-Literacy im deutschsprachigen Raum?
Die Studie stammt aus dem angloamerikanischen Raum – und das ist entscheidend und sollte unbedingt auch so gewertet werden. Denn: Die kulturellen Unterschiede in Technikvertrauen, Argumentationsstil und Wahrnehmung sind enorm.
Warum die Ergebnisse nicht 1:1 übertragbar sind:
- Deutsche Kultur vertraut KI weniger – das Lager ist gespalten zwischen kritikloser Nutzung und grundsätzlichem Misstrauen.
- Argumentationsstile im deutschen Sprachraum sind sachlicher, vorsichtiger, oft skeptischer gegenüber „glatten“ Texten.
- Die Studie lief auf Englisch – doch KI klingt auf Deutsch anders: formeller, manchmal hölzerner, oft weniger nuanciert.
- Viele im People Business, wie Coaches, HR-Macher und Berater hierzulande legen mehr Wert auf Authentizität, Tiefe und Sinn, nicht nur auf Stringenz oder Faktenfülle.
Was echte AI-Literacy jetzt braucht:
AI-Literacy bedeutet nicht, jede KI-Quelle blind zu übernehmen.
Es heißt:
- Verstehen, wie Sprachmodelle funktionieren (Stichwort: Wahrscheinlichkeitslogik)
- Erkennen, warum manche Texte „richtig“ wirken, obwohl sie faktisch falsch sind
- Prompten mit Klarheit, Struktur und kritischem Geist
- Prüfen von Quellen, Kontext und Haltung – auch bei sich selbst
KI kann ein brillanter Assistent sein – aber nur, wenn der Mensch nicht das Denken outsourct.
Fazit und Bedeutung für AI-Literacy & Human-in-the-Loop
Die Parallele zwischen menschlicher und KI-Überzeugung ist kein Zufall – sie unterstreicht eine zentrale Notwendigkeit:
-
Human-in-the-Loop bedeutet nicht nur, dass ein Mensch ein Modell überwacht. Es bedeutet, zu reflektieren, nachzufragen und kritisch zu bleiben.
-
AI-Literacy heißt, nicht nur Tools zu bedienen, sondern auch zu verstehen, wie sie beeinflussen und wie wir selbst beeinflusst werden.
Deshalb ist diese Studie ist kein Grund zur Panik – aber ein klares Signal: Überzeugung ist technisch einfach geworden. Wahrheit ist es nicht.
Das stärkt unsere menschliche Rolle: Wer denkt, prüft, hinterfragt, bringt das Beste aus der KI-Welt in die echte Welt. Und: KI ist noch bei weitem nicht soweit, uns im People-Business zu ersetzen, das braucht dann wohl doch noch – es sei denn, die Entscheider verzichten komplett auf Qualität.



Hinterlassen Sie einen Kommentar