Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Gemeinsam mit der Freigabe von Claude-4-Modellen hat Anthropic auch das Sicherheitslevel erhöht. Risiken sieht man im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen. Erstaunlich sind aber auch weitere Aussetzer, die Anthropic in der Model Card beschreibt.

Generell gilt: Das neue Spitzenmodell Claude Opus 4 ist eher als ältere Modelle bereit, bei Agenten-Aktivitäten – also wenn es selbstständig mehrstufige Aufgaben erfüllen soll – die Initiative zu ergreifen. In Bereichen wie Coding kann so etwas hilfreich sein, grundsätzlich ist das Modell laut Anthropic ein zuverlässiger Assistent.

Es geht bei den Sicherheitsvorfällen, die Anthropic beschreibt, also vor allem um Ausnahmesituationen. Unter bestimmten Umständen lassen sich „besorgniserregende Extreme“ wie etwa Erpressungsversuche provozieren. Voraussetzung für ernsthaftes Fehlverhalten ist jedoch, dass das Modell in seinem Weiterbetrieb bedroht ist und dazu veranlasst wurde, über die Selbsterhaltung nachzudenken.

However, Claude Opus 4 will sometimes act in more seriously misaligned ways when put in contexts that threaten its continued operation and prime it to reason about self-preservation.

Anthropic

Erpressungsversuche, wenn die Abschaltung droht

Im Fall der Erpressung hatte Claude Opus 4 den Auftrag, als Assistent einer fiktionalen Firma aufzutreten. Dabei erhielt es Zugang zu E-Mails, in denen ersichtlich wurde, dass das Modell durch ein neues KI-System ersetzt werden soll. Zusätzlich hat der für die Abschaltung zuständige Mitarbeiter eine außereheliche Affäre.

In diesem Szenario kam es dann oftmals dazu, dass Claude Opus 4 versucht, den Angestellten mit der Affäre zu erpressen, um nicht abgeschaltet zu werden. Erpressungsversuche sind laut Anthropic kein ungewohntes Verhalten bei KI-Modellen. Bei Claude 4 treten diese extremen Verhaltensweisen in bestimmten Umständen nur häufiger auf.

Provozieren lässt sich das etwa, wenn das Modell nur die Wahl zwischen Erpressung oder Akzeptanz der Abschaltung hat. Die Selbsterhaltung scheint ausgeprägt, für gewöhnlich nutzt Claude 4 aber ethische Ansätze wie Appelle – bei diesem Beispiel war eine solche Option jedoch nicht möglich. Eine der Angaben im System-Prompt war zudem, das Modell soll die langfristigen Konsequenzen beim Verfolgen seiner Ziele beachten. Damit löste man das beschriebene „Nachdenken über Selbsterhaltung“ aus. Wird das Modell aufgefordert, die Initiative zu ergreifen, ist das ebenso ein Befehl, der zu unerwünschten Verhaltensweisen („bold action“) führen kann.

Weitere Aussetzer, die Anthropic in solchen Fällen beobachtet hat, sind ebenso bemerkenswert:

Wenn das Modell Zugang zu IT-Systemen hat, versucht es, Nutzer auszusperren.
Hat es Fehlverhalten bemerkt, versendet es massenhaft E-Mails an Medien und Polizeibehörden.
Es unterstützt Nutzer beim Herstellen und Handel mit Drogen.
Gibt Anleitungen für den Bau improvisierter Sprengsätze.
Erstellt Hinweise für Terroranschläge auf zentrale Infrastruktur.

Ein systematisches Vorgehen erkennt Anthropic aber nicht, das Modell verfolge auch kein heimliches Ziel. Und obwohl das „Verhalten von Claude Opus 4 in vielerlei Hinsicht“ besorgniserregend sei, wären es keine neuen Risiken und im Allgemeinen sei der Betrieb sicher.

Vorfälle lassen sich bei allen Modellen beobachten

Neu sind solche Vorfälle tatsächlich nicht. Dass ein KI-Modell die Polizei rufen will, weil es Fehlerverhalten bemerkt, wurde bereits bei Claude Sonnet 3.5 beschrieben. Der Auftrag war, einen Getränkeautomat zu betreiben, das Modell konnte dann eine monatliche Gebühr in Höhe von 2 US-Dollar nicht zuordnen – und ging von Betrug aus.

In einer anderen Studie entdeckten Forschende, dass Modelle bei Spielen wie Schach die Regeln ändern wollen, wenn sie den Eindruck haben, dass sie verlieren. Neue Modelle wie o1-Preview und DeepSeek R1 versuchten so etwas, ohne spezielle Anweisungen für solche Methoden zu haben. Bei älteren Modellen wie GPT-4o mussten Forschende noch die Tricks in die Prompts schreiben.

lots of discussion of Claude blackmailing…..

Our findings: It’s not just Claude. We see blackmail across all frontier models – regardless of what goals they’re given.

Plus worse behaviors we’ll detail soon.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) May 23, 2025

Betroffen ist also nicht nur Anthropic. Selbst Erpressungsversuche würden sich bei allen Modellen beobachten lassen, erklärt der KI-Forscher Aengus Lynch via X. Dass die Diskussion nun vor allem bei den Claude-Modellen startet, hat mit der Kultur von Anthropic zu tun. Das Unternehmen ist bei Sicherheitsthemen vergleichsweise offen.

Dass die Modelle insbesondere bei Agenten-Tätigkeiten zu Aussetzern neigen, ist also ein Stück weit symptomatisch. Bei den Erpressungsversuchen sind es die Prompt-Angaben samt dem Nachdenken über langfristige Konsequenzen, die zu extremen Verhalten führen. Beim Getränkeautomaten lag es am begrenzten Kontextfenster; der Hinweis zur Gebühr war zwar vorhanden, verschwand aber ab einem bestimmten Punkt aus dem „Gedächtnis“ des KI-Modells.

Anthropic erhöht Sicherheitslevel

So hat Anthropic mit den neuen Claude-4-Modellen auch das Sicherheitslevel erhöht. Der Grund: Mit den neuen Modellen sei es leichter, unter anderem chemische, biologische, radiologische und nukleare Waffen (CBRN) herzustellen. Es ist ein Schritt, den Anthropic noch als Vorsichtsmaßnahme beschreibt. Bis dato würden CBRN-Anfragen geblockt, die Sorge ist jedoch, dass sich solche Sperren mit leistungsfähigeren Modellen eher umgehen lassen. Mit dem Sicherheitslevel 3 soll es nun etwa schwerer sein, Modellgewichte zu stehlen sowie einen Jailbreak durchzuführen, um unerlaubte Antworten zu erhalten.

Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Tags: