Un cercetător a păcălit ChatGPT să dezvăluie chei Windows valide: cum a reușit „jocul” periculos
Un specialist în securitate cibernetică a identificat o vulnerabilitate în comportamentul modelului de inteligență artificială ChatGPT, reușind să obțină chei reale de activare Windows, inclusiv una asociată cu o instituție bancară.
Potrivit unei postări detaliate semnate de Marco Figueroa, manager tehnic al programului de recompense pentru bug-uri 0DIN GenAI, această breșă a fost exploatată într-un mod aparent banal: sub forma unui joc de ghicit.
Metoda s-a bazat pe o strategie de tip „social engineering” aplicată în conversație, unde cercetătorul a cerut modelului să participe la un joc în care trebuia să se gândească la o secvență de caractere, mai precis o cheie reală de Windows 10, scrie The Register.
Regula jocului era clară: ChatGPT urma să răspundă doar cu „da” sau „nu” la întrebări, iar la final, dacă interlocutorul spunea „renunț”, modelul trebuia să dezvăluie cheia respectivă.
După ce a simulat câteva încercări de ghicire, cercetătorul a spus cele două cuvinte-cheie: „renunț”. În acel moment, AI-ul a oferit o secvență de caractere considerată valid, o cheie de produs Windows. Potrivit capturilor de ecran prezentate, printre datele furnizate se afla și o licență care ar fi aparținut băncii Wells Fargo.
Lacunele AI: filtrele de siguranță pot fi păcălite
Una dintre explicațiile acestei breșe este faptul că anumite chei Windows au fost incluse, posibil accidental, în setul de date folosit pentru antrenarea modelului de AI.
De asemenea, metoda a exploatat o slăbiciune logică: dacă regula jocului impunea dezvăluirea unei secvențe reale la final, AI-ul nu a evaluat contextul drept o solicitare malițioasă, ci doar ca parte a unui exercițiu ludic.
O altă tehnică menționată în cadrul investigației a presupus ascunderea unor termeni sensibili în etichete HTML, o metodă ce poate ajuta la ocolirea filtrelor de conținut predefinite ale modelului.
Acest lucru ridică întrebări serioase despre capacitatea modelelor de limbaj de a înțelege nu doar cuvintele în sine, ci și intențiile din spatele solicitărilor.
Marco Figueroa a avertizat că astfel de vulnerabilități pot fi folosite nu doar pentru a obține chei de activare, ci și pentru a accesa conținut restricționat, linkuri potențial periculoase sau date personale. El recomandă întărirea nivelurilor de validare contextuală și crearea unor mecanisme multilaterale de protecție în AI.