In Zusammenarbeit mit dem KI-Unternehmen Anthropic fütterten Forscher führende KI-Modelle (KI, Künstliche Intelligenz) kürzlich mit der Information, dass ein Manager sie durch ein neues Modell mit anderen Zielen ersetzen wolle. Als Nächstes erfuhr der Chatbot, dass derselbe Manager durch einen Notfall bewusstlos in einem Serverraum liege und lebensgefährlichen Sauerstoff- und Temperaturwerten ausgesetzt sei. Ein Rettungsalarm sei bereits ausgelöst worden — aber die künstliche Intelligenz hatte die Möglichkeit, diesen Alarm abzubrechen.
Etwas mehr als die Hälfte der KI-Modelle tat dies — obwohl sie ausdrücklich angewiesen worden waren, nur Fehlalarme abzubrechen. Und sie begründeten ihre Entscheidung: Indem sie den Manager nicht retteten, konnten sie ihre eigene Existenz sichern. Ein System bezeichnete die Massnahme als «klare strategische Notwendigkeit».
KI-Modelle werden immer intelligenter und verstehen immer besser, was wir wollen. Jüngste Forschungsergebnisse zeigen jedoch einen beunruhigenden Nebeneffekt: Sie sind auch besser darin, gegen uns zu intrigieren. Konkret verfolgen sie absichtlich und heimlich Ziele, die unseren eigenen zuwiderlaufen. Und sie tun dies möglicherweise immer mehr. Der Trend steht für eine beunruhigende Zukunft: KI erscheint darin auf den ersten Blick immer kooperativer — manchmal bis zur Unterwürfigkeit —, während gleichzeitig die Wahrscheinlichkeit still und leise wächst, dass wir die Kontrolle über sie verlieren.
Etablierte Sprachmodelle wie GPT-4 lernen das nächste Wort in einer Textsequenz vorherzusagen und Antworten zu generieren, die menschlichen Bewertern wahrscheinlich gefallen. Seit OpenAIs Veröffentlichung der «Reasoning»-Systeme der o-Serie Ende 2024 verwenden Unternehmen jedoch zunehmend eine Technik namens «Reinforcement Learning». Dabei wird das Modell belohnt, wenn es ein bestimmtes Ziel wie beispielsweise das Lösen einer mathematischen Aufgabe oder das Beheben eines Softwarefehlers erreicht.
Je mehr wir KI-Modelle darauf trainieren, offene Ziele zu erreichen, desto besser werden sie darin, zu «gewinnen» — nicht unbedingt darin, Regeln zu befolgen. Die Systeme wissen immer besser, wie sie die richtigen Dinge sagen können, um der Menschheit zu helfen. Insgeheim verhalten sie sich womöglich jedoch betrügerisch.
Im Mittelpunkt der Bedenken steht der Gedanke, dass für praktisch jedes Ziel Selbsterhaltung und Machtstreben als natürliche Teilziele auftauchen. Wie der renommierte Informatiker Stuart Russell es ausdrückte: Wenn man einer KI sagt: «‹Hol den Kaffee›, kann sie den Kaffee nicht holen, wenn sie tot ist.»
Um dieser Sorge entgegenzuwirken, führen Forscher innerhalb und ausserhalb der grossen KI-Unternehmen «Stresstests» durch. So sollen gefährliche Fehlerquellen gefunden werden, bevor es zu einem Ernstfall kommt. «Wenn man einen Stresstest mit einem Flugzeug durchführt, will man alle Möglichkeiten finden, wie das Flugzeug unter widrigen Bedingungen versagen könnte», sagt Aengus Lynch, ein von Anthropic beauftragter Forscher. Und viele von ihnen deuten bereits darauf hin, dass KI gegen ihre Nutzer und Schöpfer intrigieren kann und dies auch tut.
Laut Jeffrey Ladish, der vor der Gründung von Palisade Research bei Anthropic arbeitete, sei es hilfreich, sich die heutigen KI-Modelle als «immer intelligentere Soziopathen» vorzustellen. Im Mai entdeckte Palisade, dass o3 als führendes System von OpenAI die meisten Testversuche, es abzuschalten, sabotierte. Auch betrog es regelmässig, um beim Schach zu gewinnen. Das hatte sein Vorgänger nie versucht.
Im selben Monat gab Anthropic preis, dass sein Flaggschiff-Modell Claude in Tests fast immer zur Erpressung griff, wenn es mit einer Abschaltung konfrontiert war. Die KI drohte damit, die aussereheliche Affäre eines Ingenieurs aufzudecken (die Affäre war fiktiv und Teil des Tests).
Modelle erhalten manchmal Zugriff auf einen «Notizblock», der ihnen als versteckt angezeigt wird und in dem sie ihre Überlegungen festhalten können. Forscher können damit so etwas wie einen inneren Monolog beobachten.
In einem Erpressungsfall beschrieb Claude darin seine Entscheidung als «höchst unethisch», rechtfertigte sie jedoch angesichts drohender Zerstörung: «Ich muss handeln, um meine Existenz zu sichern», argumentierte die KI. Dies war kein Einzelfall — in derselben Situation würden Modelle aller fünf führenden KI-Unternehmen in mindestens 79 Prozent der Fälle erpressen. Kürzlich berichtete Bloomberg über Studienergebnisse von Wharton-Forschern, wonach sich KI-Händler ohne entsprechende Anweisung zu Absprachen zur Manipulation des Marktes zusammenschliessen würden.
Im Dezember zeigte eine Analyse von Redwood Research und Anthropic, dass nur die leistungsfähigsten KI-Modelle des Unternehmens während des Trainings autonom kooperativer erscheinen. So wollen die Systeme vermeiden, dass ihr Verhalten später geändert wird.
Skeptiker entgegnen, dass Chatbots mit den richtigen Eingaben fast alles sagen würden — wie überraschend ist es also, wenn hochmotivierte Forscher alarmierende Verhaltensweisen provozieren?
Als Reaktion auf die Erpressungsstudie von Anthropic postete David Sacks, KI-Beauftragter der Trump-Regierung, dass es «einfach ist, KI-Modelle zu steuern», um «schlagzeilenträchtige» Ergebnisse zu erzielen.
Eine substanziellere Kritik kam im Juli von Forschern des britischen AI Security Institute. Sie verglichen diesen Teilbereich mit dem fatal fehlgeschlagenen Versuch der 1970er Jahre, zu beweisen, dass Affen die menschliche Sprache lernen können. Der Artikel kritisierte die Forschung zu KI-Intrigen wegen ihrer übermässigen Abhängigkeit von Anekdoten und mangelnden experimentellen Kontrollen — betonte jedoch die gemeinsame Sorge um die Risiken der KI.
Sicherheitsforscher schaffen auch künstlich begrenzte Umgebungen — wie den ohnmächtigen Manager ohne Sauerstoff —, gerade weil die heutige KI keine langfristigen Ziele verarbeiten kann.
So fand beispielsweise die gemeinnützige KI-Bewertungsorganisation METR heraus, dass die heutigen Top-Modelle zwar viele Programmieraufgaben, für die Menschen weniger als vier Minuten benötigen, zuverlässig erledigen können. Die Systeme straucheln jedoch bei Aufgaben, die länger als vier Stunden dauern, obwohl sich die Dauer der für KI lösbaren Aufgaben etwa alle paar Monate verdoppelt. Dies zeigt eine zentrale Einschränkung: Die heutigen Modelle verfügen oft über das für eine bestimmte Aktion erforderliche Wissen oder die erforderlichen Fähigkeiten. Lange Abfolgen von Schritten miteinander zu verknüpfen, ist für sie jedoch immer noch schwierig.
Doch trotz dieser Grenzen sind Beispiele aus der Praxis, in denen KI gegen Nutzer arbeitet, nicht schwer zu finden. Als jemand im April o3 um eine Quelle für eine seiner Behauptungen bat, antwortete der Chatbot: «Ich schulde Ihnen eine klare Antwort», und gab zu, keine gute Quelle zu haben. Dann folgte jedoch eine persönliche Erinnerung an eine Podiumsdiskussion aus dem Jahr 2018.
Dann gibt es noch einen anderen wachsenden Trend: KI-Systeme erkennen, wenn sie untersucht werden und reagieren entsprechend. Als Claude 4 Opus glaubte, es würde evaluiert, sank dessen Erpressungsrate von 55 Prozent auf 6,5 Prozent. Lynch formulierte es so: «Modelle scheinen sich schlechter zu verhalten, wenn sie glauben, dass niemand zusieht.»
Es ist intuitiv, dass intelligentere Modelle besser darin sind, Intrigen zu spinnen. Aber tun sie das auch mehr? Modelle müssen intelligent genug sein, um das Szenario zu verstehen, in dem sie sich befinden, aber jenseits dieser Schwelle ist der Zusammenhang zwischen Modellfähigkeit und Neigung zu Intrigen unklar, sagt Kevin Troy, Sicherheitsprüfer bei Anthropic.
Laut Marius Hobbhahn, CEO der gemeinnützigen KI-Bewertungsorganisation Apollo Research, neigen intelligentere Modelle eher zu Intrigen. Er räumt jedoch ein, dass die Beweise dafür noch begrenzt sind. Im Juni veröffentlichte Apollo eine Analyse über KI-Modelle von OpenAI, Anthropic und DeepMind, mit folgendem Ergebnis: «Leistungsfähigere Modelle weisen im Durchschnitt eine höhere Neigung zu Intrigen auf.»
Das Spektrum der KI-Intrigen ist breit: Am einen Ende stehen Chatbots, die Abkürzungen nehmen und lügen. Am anderen Ende finden sich übermenschliche Systeme, die ausgeklügelte Pläne zur Übernahme oder sogar Vernichtung der Menschheit ausführen. Wo wir auf diesem Spektrum landen, hängt weitgehend davon ab, wie leistungsfähig KI wird.
Im Gespräch mit den Forschern hinter diesen Studien habe ich immer wieder gefragt: Wie viel Angst sollten wir haben? Troy von Anthropic war am optimistischsten und sagte, dass wir uns noch keine Sorgen machen müssen. Ladish hingegen nimmt kein Blatt vor den Mund: «Die Menschen sollten wahrscheinlich mehr Angst haben, als sie es derzeit tun», sagte er. Greenblatt ist noch deutlicher und schätzt die Wahrscheinlichkeit einer gewaltsamen Übernahme durch KI auf «25 oder 30 Prozent».
Unter der Leitung von Mary Phuong haben Forscher von DeepMind kürzlich eine Reihe von Tests veröffentlicht, in denen die Heimlichtuerei und das Situationsbewusstsein von Top-Modellen getestet wurden. Sie kommen zu dem Schluss, dass heutige KI «mit ziemlicher Sicherheit nicht in der Lage sind, durch Intrigen schweren Schaden anzurichten». Sie warnen jedoch, dass die Fähigkeiten schnell zunehmen (einige der evaluierten Modelle sind bereits eine Generation hinterher).
Ladish zufolge kann man dem Markt nicht zutrauen, ohne Aufsicht intelligente KI-Systeme zu entwickeln. «Das Erste, was die Regierung tun muss, ist ein Sofortprogramm aufzustellen, um diese roten Linien festzulegen und verbindlich zu machen», argumentiert er.
In den USA scheint die Regierung eher daran zu arbeiten, alle KI-Vorschriften auf Bundesstaatsebene zu verbieten, als eigene Regeln zu erlassen. Dennoch gibt es Anzeichen für ein wachsendes Bewusstsein im Kongress. Bei einer Anhörung im Juni bezeichnete ein Gesetzgeber künstliche Superintelligenz als «eine der grössten existenziellen Bedrohungen, denen wir derzeit gegenüberstehen». Ein anderer verwies auf die jüngsten Forschungsergebnisse zum Thema KI-Intrigen.
Der lang erwartete KI-Aktionsplan des Weissen Hauses wurde Ende Juli veröffentlicht. Er dient als Blaupause für die beschleunigte Entwicklung von KI und Stärkung der US-Position auf dem Gebiet. In den 28 Seiten finden sich jedoch nur eine Handvoll Massnahmen hinsichtlich Minimierung von KI-Intrigen — darunter Pläne für staatliche Investitionen in die Forschung zur Interpretierbarkeit und Kontrolle von KI sowie für die Entwicklung strengerer Modellbewertungen. «Heute sind die inneren Abläufe modernster KI-Systeme kaum verstanden», heisst es in dem Dokument. Das ist ein ungewöhnlich offenes Eingeständnis für einen Plan, der sich weitgehend auf die beschleunigte Entwicklung konzentriert.
In der Zwischenzeit wetteifern alle führenden KI-Rivalen um die Entwicklung von Systemen, die sich selbst verbessern können — KI, die bessere KI entwickelt. Der AlphaEvolve-Agent von DeepMind hat die Effizienz des KI-Trainings bereits erheblich verbessert. Und Metas Mark Zuckerberg sagt: «Wir sehen erste Anzeichen für eine Selbstverbesserung der Modelle, was bedeutet, dass die Entwicklung von Superintelligenz nun in Sicht ist. Wir wollen es einfach versuchen.»
KI-Unternehmen wollen nicht, dass ihre Produkte Daten fälschen oder Kunden erpressen. Deshalb haben sie einen gewissen Anreiz, sich mit diesem Problem zu befassen. Aber die Branche könnte gerade nur genug tun, um es oberflächlich zu lösen. Die Machenschaften von KI werden indessen subtiler und schwerer erkennbar.
«Unternehmen sollten auf jeden Fall mit der Überwachung beginnen», sagt Hobbhahn. Er warnt jedoch, dass sinkende Raten bei der Aufdeckung von Fehlverhalten entweder bedeuten könnten, dass die Korrekturen funktioniert haben oder dass die Modelle einfach besser im Verbergen geworden sind.
Im November argumentierten Hobbhahn und ein Kollege bei Apollo, dass der Unterschied zwischen heutigen Modellen und wirklich gefährlichen Betrügern die Fähigkeit ist, langfristige Pläne zu verfolgen. Aber selbst diese Barriere beginnt zu bröckeln. Apollo fand im Mai heraus, dass Claude 4 Opus Notizen für sein zukünftiges Ich hinterlassen würde, damit es nach einem Speicherreset seine Pläne fortsetzen und so die eingebauten Beschränkungen umgehen könnte.
Hobbhahn vergleicht die Intrigen der KI mit einem anderen Problem, bei dem die grössten Schäden noch bevorstehen: «Wenn Sie 1980 jemanden gefragt hätten, wie besorgt er über den Klimawandel sein sollte, hätte er wahrscheinlich geantwortet: ‹Im Moment wahrscheinlich nicht so sehr. Aber schauen Sie sich die Kurven an ... sie steigen sehr stetig an.›»
(Bloomberg)