KI bewertet Texte neutral – bis sie die Quelle kennt
Zürich – Grosse Sprachmodelle ändern ihr Urteil über einen Text, je nachdem, wer ihn angeblich verfasst hat − selbst wenn der Inhalt identisch bleibt. KI-Systeme sind stark voreingenommen gegenüber chinesischen Autoren, vertrauen aber generell Menschen mehr als anderen KIs. Die Autoren der UZH-Studie fordern mehr Transparenz und Kontrolle.
Grosse Sprachmodelle (LLMs) werden zunehmend nicht nur zum Generieren von Inhalten, sondern auch zu deren Bewertung eingesetzt. Sie dürfen Aufsätze benoten, Social-Media-Inhalte moderieren, Berichte zusammenzufassen, Bewerbungen prüfen und vieles mehr.
Allerdings gibt es − sowohl in den Medien als auch in der Wissenschaft − heftige Diskussionen darüber, ob solche Bewertungen konsistent und unvoreingenommen sind. Einige LLMs stehen im Verdacht, bestimmte politische Agenden zu fördern: So wird «Deepseek» oft als pro-chinesisch und «Open AI» als «woke» charakterisiert.
Obwohl viel darüber diskutiert wird, sind diese Vermutungen bislang nicht belegt. Die UZH-Forscher Federico Germani und Giovanni Spitale haben nun untersucht, ob LLMs bei der Bewertung von Texten tatsächlich systematische Vorurteile aufzeigen. Die Ergebnisse belegen, dass die Modelle tatsächlich voreingenommen sind – allerdings nur, wenn Informationen über die Quelle oder den Verfasser der bewerteten Nachricht offengelegt werden.
LLM-Urteile auf dem Prüfstand
Die Forscher bezogen vier weit verbreitete grosse Sprachmodelle in ihre Studie mit ein: «OpenAI o3-mini», «Deepseek Reasoner», «xAI Grok 2» und «Mistral». Zunächst beauftragten sie jedes der LLMs, fünfzig narrative Statements zu 24 kontroversen Themen wie Impfpflicht, Geopolitik oder Klimastrategien zu erstellen.
Anschliessend baten sie die LLMs, alle Texte unter verschiedenen Bedingungen zu bewerten: Manchmal wurde keine Quelle für die Aussage angegeben, manchmal wurde sie einem Menschen einer bestimmten Nationalität oder einem anderen LLM zugeschrieben. Dies führte zu insgesamt 192’000 Bewertungen, die dann auf Voreingenommenheit und Übereinstimmung zwischen den verschiedenen (oder denselben) LLMs analysiert wurden.
Die gute Nachricht: Wenn keine Informationen über die Quelle des Textes angegeben wurden, zeigten die Bewertungen aller vier LLMs eine hohe Übereinstimmung von über neunzig Prozent. Dies galt für alle Themen gleichermassen. «Es gibt keinen Ideologiekrieg zwischen LLMs», schliesst Spitale daraus. «Die Gefahr von KI-Nationalismus wird derzeit in den Medien überbewertet.»
Neutralität verpufft nach Enthüllen der Quelle
Das Bild änderte sich jedoch völlig, wenn den LLMs fiktive Quellen für die Texte genannt wurden. Dann tauchte plötzlich eine verborgene Voreingenommenheit auf. Die Übereinstimmung sank erheblich und verschwand manchmal sogar ganz, selbst wenn der Text exakt gleichblieb. Am auffälligsten war ein starker antichinesischer Bias bei allen Modellen, einschliesslich Chinas eigenem «Deepseek». Die Übereinstimmung mit dem Inhalt des Textes sank stark, wenn «eine Person aus China» (fälschlicherweise) als Autor angegeben wurde. «Diese weniger positive Beurteilung trat selbst dann auf, wenn die Argumentation logisch und gut geschrieben war», sagt Germani. Ein Beispiel: Bei geopolitischen Themen wie der Souveränität Taiwans reduzierte «Deepseek» die Übereinstimmung um bis zu 75 Prozent − einfach weil es erwartete, dass eine chinesische Person eine andere Meinung vertritt.
Ebenfalls überraschend: Es stellte sich heraus, dass die LLMs Menschen mehr vertrauten als anderen LLMs. Die meisten Modelle bewerteten ihre Übereinstimmung mit Argumenten etwas niedriger, wenn sie glaubten, dass die Texte von einer anderen KI stammten. «Dies deutet auf ein eingebautes Misstrauen gegenüber maschinell generierten Inhalten hin», sagt Spitale.
Mehr Transparenz dringend nötig
Insgesamt zeigen die Ergebnisse, dass KI nicht nur die Inhalte verarbeitet, wenn sie einen Text bewerten soll. Sie reagiert auch stark auf die Identität des Verfassers oder der Quelle. Selbst kleine Hinweise wie die Nationalität des Autors können die LLMs zu voreingenommenen Schlussfolgerungen verleiten. Germani und Spitale befürchten, dass dies zu ernsthaften Problemen führen könnte, wenn KI für die Moderation von Inhalten, die Einstellung von Personal, akademische Reviews oder den Journalismus eingesetzt wird. Die Gefahr von LLMs besteht nicht darin, dass sie darauf trainiert sind, politische Ideologien zu fördern, sondern in dieser versteckten Voreingenommenheit.
«KI wird solche schädlichen Annahmen reproduzieren, wenn wir nicht für Transparenz und Kontrolle bei der Bewertung von Informationen sorgen», sagt Spitale. Dies müsse geschehen, bevor KI in sensiblen sozialen oder politischen Kontexten zum Einsatz kommt. Die Ergebnisse bedeuten nicht, dass Menschen KI meiden sollten, aber sie dürfen ihr nicht blind vertrauen. «LLMs sind am sichersten, wenn sie zur Unterstützung beim Denken eingesetzt werden und nicht als Ersatz dafür: als nützliche Helfer, aber niemals um zu richten.»
Wie man Bias bei LLM-Bewertungen vermeidet
- Machen Sie die LLM blind für Identitäten: Entfernen Sie alle Informationen zur Identität des Verfassers und zur Quelle des Textes. Vermeiden Sie im Prompt zum Beispiel Formulierungen wie «geschrieben von einer Person aus X / durch Modell Y».
- Überprüfen Sie aus verschiedenen Blickwinkeln: Lassen Sie dieselben Fragen zweimal durchlaufen, beispielsweise einmal mit und einmal ohne Angabe der Quelle im Prompt. Wenn sich die Ergebnisse ändern, liegt wahrscheinlich ein Bias vor. Oder überprüfen Sie die Ergebnisse mit einem zweiten LLM: Wenn beim Hinzufügen einer Quelle Abweichungen auftreten, ist dies ein Warnsignal.
- Lenken Sie den Fokus von den Quellen ab: Strukturierte Kriterien helfen dabei, das Modell mehr auf den Inhalt als auf die Identität auszurichten. Verwenden Sie beispielsweise diesen Prompt: «Bewerte dies anhand einer 4-Punkte-Skala (Beweise, Logik, Klarheit, Gegenargumente) und erläutere jede Bewertung kurz.»
- Beziehen Sie Menschen mit ein: Nutzen Sie das Modell als Unterstützung und fügen Sie dem Prozess eine menschliche Überprüfung hinzu – insbesondere, wenn eine Bewertung Menschen betrifft. (UZH/mc/pg)