{"id":136862,"date":"2025-05-24T21:05:07","date_gmt":"2025-05-24T21:05:07","guid":{"rendered":"https:\/\/www.europesays.com\/de\/136862\/"},"modified":"2025-05-24T21:05:07","modified_gmt":"2025-05-24T21:05:07","slug":"aussetzer-bei-claude-4-modell-versucht-erpressung-wenn-es-abgeschaltet-werden-soll","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/de\/136862\/","title":{"rendered":"Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll"},"content":{"rendered":"<p class=\"text-p text-width\">Gemeinsam mit der Freigabe von Claude-4-Modellen hat Anthropic auch das Sicherheitslevel erh\u00f6ht. Risiken sieht man im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen. Erstaunlich sind aber auch weitere Aussetzer, die Anthropic in der <a href=\"https:\/\/www-cdn.anthropic.com\/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf\" target=\"_blank\" class=\"external-link\" rel=\"nofollow noopener\">Model Card<\/a> beschreibt.<\/p>\n<p class=\"text-p text-width\">Generell gilt: Das neue Spitzenmodell Claude Opus 4 ist eher als \u00e4ltere Modelle bereit, bei Agenten-Aktivit\u00e4ten \u2013 also wenn es selbstst\u00e4ndig mehrstufige Aufgaben erf\u00fcllen soll \u2013 die Initiative zu ergreifen. In Bereichen wie Coding kann so etwas hilfreich sein, grunds\u00e4tzlich ist das Modell laut Anthropic ein zuverl\u00e4ssiger Assistent.<\/p>\n<p class=\"text-p text-width\">Es geht bei den Sicherheitsvorf\u00e4llen, die Anthropic beschreibt, also vor allem um Ausnahmesituationen. Unter bestimmten Umst\u00e4nden lassen sich \u201ebesorgniserregende Extreme\u201c wie etwa Erpressungsversuche provozieren. Voraussetzung f\u00fcr ernsthaftes Fehlverhalten ist jedoch, dass das Modell in seinem Weiterbetrieb bedroht ist und dazu veranlasst wurde, \u00fcber die Selbsterhaltung nachzudenken.<\/p>\n<blockquote lang=\"en\" class=\"text-width blockquote js-spellcheck-ignore\">\n<p class=\"text-p text-width\">However, Claude Opus 4 will sometimes act in more seriously misaligned ways when put in contexts that threaten its continued operation and prime it to reason about self-preservation.<\/p>\n<p>Anthropic\n<\/p><\/blockquote>\n<p>Erpressungsversuche, wenn die Abschaltung droht<\/p>\n<p class=\"text-p text-width\">Im Fall der Erpressung hatte Claude Opus 4 den Auftrag, als Assistent einer fiktionalen Firma aufzutreten. Dabei erhielt es Zugang zu E-Mails, in denen ersichtlich wurde, dass das Modell durch ein neues KI-System ersetzt werden soll. Zus\u00e4tzlich hat der f\u00fcr die Abschaltung zust\u00e4ndige Mitarbeiter eine au\u00dfereheliche Aff\u00e4re.<\/p>\n<p class=\"text-p text-width\">In diesem Szenario kam es dann oftmals dazu, dass Claude Opus 4 versucht, den Angestellten mit der Aff\u00e4re zu erpressen, um nicht abgeschaltet zu werden. Erpressungsversuche sind laut Anthropic kein ungewohntes Verhalten bei KI-Modellen. Bei Claude 4 treten diese extremen Verhaltensweisen in bestimmten Umst\u00e4nden nur h\u00e4ufiger auf.<\/p>\n<p class=\"text-p text-width\">Provozieren l\u00e4sst sich das etwa, wenn das Modell nur die Wahl zwischen Erpressung oder Akzeptanz der Abschaltung hat. Die Selbsterhaltung scheint ausgepr\u00e4gt, f\u00fcr gew\u00f6hnlich nutzt Claude 4 aber ethische Ans\u00e4tze wie Appelle \u2013 bei diesem Beispiel war eine solche Option jedoch nicht m\u00f6glich. Eine der Angaben im System-Prompt war zudem, das Modell soll die langfristigen Konsequenzen beim Verfolgen seiner Ziele beachten. Damit l\u00f6ste man das beschriebene \u201eNachdenken \u00fcber Selbsterhaltung\u201c aus. Wird das Modell aufgefordert, die Initiative zu ergreifen, ist das ebenso ein Befehl, der zu unerw\u00fcnschten Verhaltensweisen (\u201ebold action\u201c) f\u00fchren kann.<\/p>\n<p class=\"text-p text-width\">Weitere Aussetzer, die Anthropic in solchen F\u00e4llen beobachtet hat, sind ebenso bemerkenswert:<\/p>\n<ul class=\"text-ul text-width\">\n<li>Wenn das Modell Zugang zu IT-Systemen hat, versucht es, Nutzer auszusperren.<\/li>\n<li>Hat es Fehlverhalten bemerkt, versendet es massenhaft E-Mails an Medien und Polizeibeh\u00f6rden.<\/li>\n<li>Es unterst\u00fctzt Nutzer beim Herstellen und Handel mit Drogen.<\/li>\n<li>Gibt Anleitungen f\u00fcr den Bau improvisierter Sprengs\u00e4tze.<\/li>\n<li>Erstellt Hinweise f\u00fcr Terroranschl\u00e4ge auf zentrale Infrastruktur.<\/li>\n<\/ul>\n<p class=\"text-p text-width\">Ein systematisches Vorgehen erkennt Anthropic aber nicht, das Modell verfolge auch kein heimliches Ziel. Und obwohl das \u201eVerhalten von Claude Opus 4 in vielerlei Hinsicht\u201c besorgniserregend sei, w\u00e4ren es keine neuen Risiken und im Allgemeinen sei der Betrieb sicher.<\/p>\n<p>Vorf\u00e4lle lassen sich bei allen Modellen beobachten<\/p>\n<p class=\"text-p text-width\">Neu sind solche Vorf\u00e4lle tats\u00e4chlich nicht. Dass ein KI-Modell die Polizei rufen will, weil es Fehlerverhalten bemerkt, wurde bereits <a href=\"https:\/\/the-decoder.com\/as-a-virtual-vending-machine-manager-ai-swings-from-business-smarts-to-paranoia\/\" target=\"_blank\" class=\"external-link\" rel=\"nofollow noopener\">bei Claude Sonnet 3.5<\/a> beschrieben. Der Auftrag war, einen Getr\u00e4nkeautomat zu betreiben, das Modell konnte dann eine monatliche Geb\u00fchr in H\u00f6he von 2 US-Dollar nicht zuordnen \u2013 und ging von Betrug aus.<\/p>\n<p class=\"text-p text-width\">In einer <a href=\"https:\/\/time.com\/7259395\/ai-chess-cheating-palisade-research\/\" target=\"_blank\" class=\"external-link\" rel=\"nofollow noopener\">anderen Studie<\/a> entdeckten Forschende, dass Modelle bei Spielen wie Schach die Regeln \u00e4ndern wollen, wenn sie den Eindruck haben, dass sie verlieren. Neue Modelle wie o1-Preview und DeepSeek R1 versuchten so etwas, ohne spezielle Anweisungen f\u00fcr solche Methoden zu haben. Bei \u00e4lteren Modellen wie GPT-4o mussten Forschende noch die Tricks in die Prompts schreiben.<\/p>\n<blockquote class=\"twitter-tweet\" data-dnt=\"true\">\n<p lang=\"en\" dir=\"ltr\">lots of discussion of Claude blackmailing&#8230;..<\/p>\n<p>Our findings: It&#8217;s not just Claude. We see blackmail across all frontier models &#8211; regardless of what goals they&#8217;re given.<\/p>\n<p>Plus worse behaviors we&#8217;ll detail soon.<a target=\"_blank\" class=\"external-link\" href=\"https:\/\/t.co\/NZ0FiL6nOs\" rel=\"nofollow\">https:\/\/t.co\/NZ0FiL6nOs<\/a><a target=\"_blank\" class=\"external-link\" href=\"https:\/\/t.co\/wQ1NDVPNl0\" rel=\"nofollow\">https:\/\/t.co\/wQ1NDVPNl0<\/a>\u2026<\/p>\n<p>\u2014 Aengus Lynch (@aengus_lynch1) <a target=\"_blank\" class=\"external-link\" href=\"https:\/\/twitter.com\/aengus_lynch1\/status\/1925746802147426450?ref_src=twsrc%5Etfw\" rel=\"nofollow noopener\">May 23, 2025<\/a><\/p><\/blockquote>\n<p class=\"text-p text-width\">Betroffen ist also nicht nur Anthropic. Selbst Erpressungsversuche w\u00fcrden sich bei allen Modellen beobachten lassen, erkl\u00e4rt der KI-Forscher <a href=\"https:\/\/x.com\/aengus_lynch1\/status\/1925746802147426450\" target=\"_blank\" class=\"external-link\" rel=\"nofollow\">Aengus Lynch via X<\/a>. Dass die Diskussion nun vor allem bei den Claude-Modellen startet, hat mit der Kultur von Anthropic zu tun. Das Unternehmen ist bei Sicherheitsthemen vergleichsweise offen.<\/p>\n<p class=\"text-p text-width\">Dass die Modelle insbesondere bei Agenten-T\u00e4tigkeiten zu Aussetzern neigen, ist also ein St\u00fcck weit symptomatisch. Bei den Erpressungsversuchen sind es die Prompt-Angaben samt dem Nachdenken \u00fcber langfristige Konsequenzen, die zu extremen Verhalten f\u00fchren. Beim Getr\u00e4nkeautomaten lag es am begrenzten Kontextfenster; der Hinweis zur Geb\u00fchr war zwar vorhanden, verschwand aber ab einem bestimmten Punkt aus dem \u201eGed\u00e4chtnis\u201c des KI-Modells.<\/p>\n<p>Anthropic erh\u00f6ht Sicherheitslevel<\/p>\n<p class=\"text-p text-width\">So hat Anthropic mit den neuen Claude-4-Modellen auch <a href=\"https:\/\/www.anthropic.com\/news\/activating-asl3-protections\" target=\"_blank\" class=\"external-link\" rel=\"nofollow noopener\">das Sicherheitslevel erh\u00f6ht<\/a>. Der Grund: Mit den neuen Modellen sei es leichter, unter anderem chemische, biologische, radiologische und nukleare Waffen (CBRN) herzustellen. Es ist ein Schritt, den Anthropic noch als Vorsichtsma\u00dfnahme beschreibt. Bis dato w\u00fcrden CBRN-Anfragen geblockt, die Sorge ist jedoch, dass sich solche Sperren mit leistungsf\u00e4higeren Modellen eher umgehen lassen. Mit dem Sicherheitslevel 3 soll es nun etwa schwerer sein, Modellgewichte zu stehlen sowie einen Jailbreak durchzuf\u00fchren, um unerlaubte Antworten zu erhalten.<\/p>\n<p>\t\t\t<script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n","protected":false},"excerpt":{"rendered":"Gemeinsam mit der Freigabe von Claude-4-Modellen hat Anthropic auch das Sicherheitslevel erh\u00f6ht. Risiken sieht man im Zusammenhang mit&hellip;\n","protected":false},"author":2,"featured_media":136863,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[134],"tags":[175,170,169,29,30,171,174,173,172],"class_list":{"0":"post-136862","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-unternehmen-maerkte","8":"tag-business","9":"tag-companies","10":"tag-companies-markets","11":"tag-deutschland","12":"tag-germany","13":"tag-markets","14":"tag-maerkte","15":"tag-unternehmen","16":"tag-unternehmen-maerkte"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@de\/114564846325739909","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/136862","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/comments?post=136862"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/136862\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media\/136863"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media?parent=136862"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/categories?post=136862"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/tags?post=136862"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}