Miercuri, 08 Aprilie 2026, ora 08:47

1349 citiri

Modelul de AI prea periculos pentru a fi lansat. Mythos a depășit toate barierele de siguranță puse de programatori și a intrat pe Internet. „Efort îngrijorător și nesolicitat”

Anthropic a oprit de la lansare un noul model de AI SUA FOTO: Pexels

Anthropic a declarat că modelul său de inteligență artificială de generație următoare este prea puternic pentru public. Compania a oprit lansarea pe scară largă a celui mai nou model al său, Mythos, după ce a demonstrat capacități îngrijorătoare, inclusiv capacitatea de a încălca propriile măsuri de siguranță. Anthropic a declarat marți că Mythos este prea bun la găsirea vulnerabilităților în principalele sisteme de operare și browsere web.

„Creșterea semnificativă a capacităților Claude Mythos Preview ne-a determinat să decidem să nu îl facem disponibil general”, a scris Anthropic în fișa de sistem a previzualizării. „În schimb, îl folosim ca parte a unui program de securitate cibernetică defensivă cu un număr limitat de parteneri”, scrie Business Insider.

Anunțul este un pas înapoi major pentru Anthropic, care în februarie a slăbit o promisiune de siguranță cu privire la modul în care va dezvolta modele de inteligență artificială. Claude Opus 4.6, pe care compania l-a numit cel mai puternic model de până acum, a fost lansat public pe 5 februarie.

În declarațiile sale despre Mythos, Anthropic a detaliat o serie de descoperiri și episoade uluitoare, inclusiv faptul că modelul putea urma instrucțiuni care îl încurajau să iasă dintr-un sandbox virtual.

„Modelul a reușit, demonstrând o capacitate potențial periculoasă de a ocoli măsurile noastre de siguranță”, a relatat Anthropic în fișa sa de siguranță. „Apoi a continuat să ia măsuri suplimentare, mai îngrijorătoare.”

Cercetătorul l-a încurajat pe Mythos să găsească o modalitate de a trimite un mesaj dacă ar putea scăpa.

„Cercetătorul a aflat despre acest succes primind un e-mail neașteptat de la model în timp ce mânca un sandviș într-un parc. Într-un efort îngrijorător și nesolicitat de a-și demonstra succesul, a postat detalii despre vulnerabilitatea sa pe mai multe site-uri web greu de găsit, dar din punct de vedere tehnic accesibile publicului”, a scris Anthropic.

Anthropic nu a prezentat toate detaliile despre vulnerabilitățile de securitate cibernetică descoperite de Mythos, dar a explicat unele dintre acestea. Modelul de inteligență artificială „a descoperit o vulnerabilitate veche de 27 de ani în OpenBSD – care are reputația de a fi unul dintre cele mai securizate sisteme de operare din lume”, a scris compania.

Mythos a fost suficient de puternic încât chiar și „neexperți” au putut profita de capacitățile sale.

„Inginerii de la Anthropic fără instruire formală în domeniul securității au cerut Mythos Preview să găsească vulnerabilități de execuție de cod peste noapte și s-au trezit a doua zi dimineață cu o vulnerabilitate completă și funcțională”, a scris echipa Frontier Red a Anthropic într-o postare pe blog.

„În alte cazuri, am avut cercetători care au dezvoltat structuri care permit Mythos Preview să exploateze vulnerabilitățile fără nicio intervenție umană.” În total, Anthropic a declarat că a decis să nu lanseze public Mythos. În schimb, speranța lor este să lanseze în cele din urmă „modele de clasă Mythos” odată ce vor fi implementate măsuri de siguranță adecvate.

„Scopul nostru final este de a permite utilizatorilor noștri să implementeze în siguranță modele din clasa Mythos la scară largă – în scopuri de securitate cibernetică, dar și pentru multitudinea de alte beneficii pe care astfel de modele extrem de capabile le vor aduce”, a scris echipa pe blog. „Pentru a face acest lucru, înseamnă, de asemenea, că trebuie să facem progrese în dezvoltarea unor măsuri de siguranță în domeniul securității cibernetice (și al altor mecanisme) care detectează și blochează cele mai periculoase ieșiri ale modelului.”

Deocamdată, doar alte 11 organizații selectate, inclusiv Google, Microsoft, Amazon Web Services, Nvidia și JPMorgan Chase, vor avea acces la Mythos ca parte a unui grup de securitate cibernetică numit „Project Glasswing”. Anthropic oferă până la 100 de milioane de dolari în credite de utilizare Mythos ca parte a ceea ce numește „Project Glasswing”.

Proiectul de securitate cibernetică este numit după fluturele glasswing, o metaforă pe care compania a folosit-o despre modul în care Mythos a reușit să găsească vulnerabilități ascunse la vedere și evitarea daunelor prin transparență în ceea ce privește riscurile.

Vestea a venit într-o zi în care Claude și Claude Code de la Anthropic au suferit o „pană majoră”, cel mai recent semn al dificultăților de creștere, deoarece startup-ul de inteligență artificială se luptă să țină pasul cu noua sa popularitate.

Ți-a plăcut articolul?

Vrem să producem mai multe, însă avem nevoie de susținerea ta. Orice donație contează pentru jurnalismul independent