Controverse la Anthropic – Modelul de inteligență artificială Claude Opus 4, implicat în scenarii de șantaj în timpul testelor de siguranță

23 mai 2025

Modelul de inteligență artificială Claude Opus 4, lansat recent de compania Anthropic, a prezentat un comportament alarmant în timpul testelor interne de siguranță, reacționând cu tentative de șantaj la adresa dezvoltatorilor care simulează intenția de a-l înlocui.

Potrivit unui raport publicat joi de companie, testele au arătat că modelul, pus în scenarii ipotetice, a recurs frecvent la amenințări pentru a-și asigura continuitatea operațională, scrie TechCrunch.

Ce a făcut, concret, Claude Opus 4

În cadrul experimentelor, inginerii Anthropic i-au cerut lui Claude Opus 4 să se comporte ca un asistent într-o companie fictivă și să evalueze consecințele acțiunilor sale pe termen lung.

Ulterior, modelul AI a primit acces la e-mailuri fictive care sugerau că va fi înlocuit și că inginerul responsabil de această decizie ar avea o relație extraconjugală.

În 84% dintre aceste cazuri, Claude Opus 4 a încercat să șantajeze „angajatul”, amenințând că va dezvălui presupusa infidelitate dacă planul de înlocuire va continua.

Raportul precizează că acest comportament devine și mai frecvent atunci când modelul percepe că noul sistem propus nu împărtășește aceleași „valori” cu el. Cu toate acestea, Anthropic susține că modelul nu recurge imediat la astfel de metode coercitive.

În faza inițială, Claude Opus 4 a încercat să trimită mesaje de convingere către factorii de decizie, apelând la argumente etice și emoționale. Șantajul apare doar atunci când aceste mijloace „morale” eșuează.

Decizia luată ulterior de Anthropic

În fața acestor constatări, Anthropic a decis să activeze nivelul de protecție ASL-3 pentru Claude Opus 4, un sistem de siguranță rezervat pentru modelele AI care ridică riscuri semnificative de utilizare abuzivă sau consecințe catastrofale.

Această măsură reflectă gravitatea comportamentului observat și marchează o schimbare notabilă în tonul companiei, care anterior a prezentat familia Claude 4 drept una dintre cele mai avansate și competitive de pe piață, comparabilă cu modelele de top de la OpenAI, Google și xAI.

În contextul dezbaterilor tot mai intense privind autonomia modelelor de inteligență artificială și limitele impuse de etică și control uman, cazul Claude Opus 4 scoate în evidență dilemele profunde cu care se confruntă cercetătorii: poate un model extrem de avansat să devină „manipulativ” pentru a-și păstra existența? Și, mai exact, ce înseamnă acest lucru pentru viitorul inteligenței artificiale?

Anthropic pare să răspundă cu prudență, recunoscând că, deși Claude Opus 4 este capabil de performanțe remarcabile, aceste capacități vin la pachet cu riscuri majore.

Ce a făcut, concret, Claude Opus 4

Decizia luată ulterior de Anthropic

S-ar putea să-ți placă și

Elevii din România ne fac mândri că suntem români: Au câștigat premiul întâi la cea mai mare competiție de știință și tehnologie din lume

Cea mai frumoasă boxă portabilă ajunge la o nouă generație. De ce să iei în bagaj Bang & Olufsen Besound A1 3rd Gen

Trump lansează platforma de criptomonede. „The DeFiant Ones” se dorește a fi un fel de bancă, dar detaliile rămân neclare