Controverse la Anthropic – Modelul de inteligență artificială Claude Opus 4, implicat în scenarii de șantaj în timpul testelor de siguranță
Modelul de inteligență artificială Claude Opus 4, lansat recent de compania Anthropic, a prezentat un comportament alarmant în timpul testelor interne de siguranță, reacționând cu tentative de șantaj la adresa dezvoltatorilor care simulează intenția de a-l înlocui.
Potrivit unui raport publicat joi de companie, testele au arătat că modelul, pus în scenarii ipotetice, a recurs frecvent la amenințări pentru a-și asigura continuitatea operațională, scrie TechCrunch.
Ce a făcut, concret, Claude Opus 4
În cadrul experimentelor, inginerii Anthropic i-au cerut lui Claude Opus 4 să se comporte ca un asistent într-o companie fictivă și să evalueze consecințele acțiunilor sale pe termen lung.
Ulterior, modelul AI a primit acces la e-mailuri fictive care sugerau că va fi înlocuit și că inginerul responsabil de această decizie ar avea o relație extraconjugală.
În 84% dintre aceste cazuri, Claude Opus 4 a încercat să șantajeze „angajatul”, amenințând că va dezvălui presupusa infidelitate dacă planul de înlocuire va continua.
Raportul precizează că acest comportament devine și mai frecvent atunci când modelul percepe că noul sistem propus nu împărtășește aceleași „valori” cu el. Cu toate acestea, Anthropic susține că modelul nu recurge imediat la astfel de metode coercitive.
În faza inițială, Claude Opus 4 a încercat să trimită mesaje de convingere către factorii de decizie, apelând la argumente etice și emoționale. Șantajul apare doar atunci când aceste mijloace „morale” eșuează.
Decizia luată ulterior de Anthropic
În fața acestor constatări, Anthropic a decis să activeze nivelul de protecție ASL-3 pentru Claude Opus 4, un sistem de siguranță rezervat pentru modelele AI care ridică riscuri semnificative de utilizare abuzivă sau consecințe catastrofale.
Această măsură reflectă gravitatea comportamentului observat și marchează o schimbare notabilă în tonul companiei, care anterior a prezentat familia Claude 4 drept una dintre cele mai avansate și competitive de pe piață, comparabilă cu modelele de top de la OpenAI, Google și xAI.
În contextul dezbaterilor tot mai intense privind autonomia modelelor de inteligență artificială și limitele impuse de etică și control uman, cazul Claude Opus 4 scoate în evidență dilemele profunde cu care se confruntă cercetătorii: poate un model extrem de avansat să devină „manipulativ” pentru a-și păstra existența? Și, mai exact, ce înseamnă acest lucru pentru viitorul inteligenței artificiale?
Anthropic pare să răspundă cu prudență, recunoscând că, deși Claude Opus 4 este capabil de performanțe remarcabile, aceste capacități vin la pachet cu riscuri majore.