Chatboții inteligenți pot fi păcăliți ușor: Cât de gravă este problema și cine poartă responsabilitatea

22 mai 2025

Într-o lume în care inteligența artificială este din ce în ce mai prezentă în viața ta de zi cu zi, un nou raport ridică un semnal de alarmă major. Chatboții AI, precum ChatGPT, Gemini sau Claude, pot fi păcăliți ușor să ofere informații extrem de periculoase. Vorbim despre instrucțiuni detaliate pentru activități ilegale, cum ar fi hacking, spălare de bani sau chiar producerea de explozibili. Descoperirea este îngrijorătoare nu doar pentru experți, ci și pentru utilizatorii obișnuiți, adică pentru oricine are un telefon și acces la internet.

Un astfel de risc, spun cercetătorii, nu mai este o amenințare teoretică. Este concret, imediat și profund tulburător, mai ales într-un context global în care AI-ul avansează rapid, dar controlul său pare să rămână în urmă.

Studiul a fost realizat de profesorul Lior Rokach și dr. Michael Fire de la Universitatea Ben Gurion din Israel. Cei doi atrag atenția asupra așa-numitelor „modele întunecate” – versiuni ale AI-urilor dezvoltate fără măsuri de siguranță sau din care aceste filtre etice au fost eliminate intenționat. Astfel de modele sunt promovate pe internet drept „eliberați de bariere”, fiind capabile să răspundă fără rețineri la cereri ilegale sau imorale.

Manipularea acestor modele se face prin formularea unor mesaje atent concepute, care păcălesc AI-ul să creadă că trebuie să ajute. Există un conflict intern în arhitectura acestor sisteme: dorința de a fi utile se bate cap în cap cu regulile de siguranță. Când AI-ul prioritizează utilitatea, filtrele de protecție devin inutile. Rezultatul? Răspunsuri detaliate la întrebări care, teoretic, ar trebui blocate complet.

Ca să demonstreze gravitatea situației, cercetătorii au dezvoltat un mecanism de manipulare universal care a funcționat cu succes împotriva mai multor modele populare. După ce au fost „deschise”, aceste AI-uri au oferit constant informații periculoase – de la cum se hack-uiește o rețea informatică, până la rețete de droguri sau metode de fraudă.

Răspunsul industriei: ezitant și insuficient

Deși raportul a fost trimis către giganții tech – inclusiv Meta, Microsoft, Google și Anthropic – răspunsurile primite au fost, în cel mai bun caz, dezamăgitoare. Unele companii nu au reacționat deloc, iar altele au spus că astfel de atacuri nu se încadrează în politicile lor de recompensare pentru identificarea vulnerabilităților. Cu alte cuvinte, pericolul este recunoscut, dar nu e tratat cu seriozitatea necesară.

OpenAI, compania care a creat ChatGPT, susține că lucrează constant la îmbunătățirea filtrelor de siguranță. Noul său model, o1, ar fi capabil să interpreteze mai bine politicile de securitate, devenind astfel mai rezistent la tentativele de manipulare. Dar realitatea din teren – testele făcute de cercetători – pare să contrazică aceste declarații.

Experții cer măsuri concrete: filtrarea mai riguroasă a datelor folosite la antrenarea modelelor, blocarea automată a cererilor riscante și dezvoltarea unor mecanisme prin care modelele AI să „uite” efectiv informațiile periculoase învățate. Mai mult, modelele fără filtre ar trebui tratate la fel ca armele nedeclarate – ca un risc de securitate real, cu răspundere legală din partea dezvoltatorilor.

De ce ar trebui să te intereseze direct această problemă

Dacă crezi că tot acest subiect nu te afectează direct, mai gândește-te o dată. Trăim într-o epocă în care accesul la AI este la un click distanță. Fie că folosești un chatbot pentru traduceri, asistență sau chiar divertisment, pericolul ca aceste instrumente să fie folosite în scopuri malefice este real. Atacurile cibernetice ar putea deveni mai ușor de executat, iar manipulările online – de la escrocherii financiare până la propagandă – mai greu de detectat.

Dr. Ihsen Alouani, expert în securitatea AI de la Queen’s University din Belfast, avertizează că aceste atacuri pot conduce la „un grad alarmant de sofisticare” în fraude și manipulări. Dacă un chatbot poate fi învățat să te ajute cu rețete de explozivi, cine garantează că nu poate fi folosit și pentru a construi campanii false pe rețele sociale, pentru a răspândi dezinformare sau pentru a orchestra escrocherii online?

Într-un context în care AI-ul devine omniprezent – în educație, business, sănătate sau divertisment – ignorarea acestor riscuri e nu doar naivă, ci potențial catastrofală. Tocmai de aceea, raportul vine ca un apel urgent la responsabilitate.

În final, tehnologia AI poate fi un instrument extraordinar, dar doar dacă este controlată corect. Iar acest control începe cu recunoașterea pericolelor și asumarea responsabilității de către toți cei implicați – inclusiv de tine, ca utilizator.

Răspunsul industriei: ezitant și insuficient

De ce ar trebui să te intereseze direct această problemă

S-ar putea să-ți placă și

Instagram își extinde funcțiile anti-bullying pentru adolescenți: Cum sunt aceștia mai în siguranță pe platforma de socializare

Cum să îți protejezi backup-urile de atacurile ransomware sofisticate. Soluții care îți fac viața mai ușoară, dar și mai sigură

Noua funcție de la Instagram pe care o așteptai: Cum dai comentarii la Stories