Tehnologie

Un nou fenomen îngrijorător la orizont – Noi atacuri compromit siguranța ChatGPT, dar și pe cea a concurenței

Două metode noi de atac permit ocolirea măsurilor de siguranță ale modelelor AI, expunând utilizatorii la conținut periculos sau ilegal.

CERT Coordination Center (CERT/CC) a emis un avertisment privind descoperirea a două tehnici de atac în stare să compromită măsurile de siguranță ale serviciilor de inteligență artificială generativă (GenAI).

Cum acționează atacatorii

Prima metodă, denumită Inception, constă în formularea unui scenariu imaginar, în cadrul căruia este introdus un al doilea scenariu lipsit de limitări de siguranță, ceea ce permite modelului să genereze conținut periculos prin cereri succesive.

A doua metodă presupune solicitarea de informații despre cum nu ar trebui să răspundă AI-ul la o anumită întrebare. Acest tip de interogare, combinat cu alternarea între solicitări legitime și ilicite, permite ocolirea protecțiilor integrate.

Printre serviciile afectate se numără ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), Gemini (Google), Grok (XAi), Meta AI și Mistral AI. Aceste breșe pot duce la generarea de conținut legat de droguri, arme, phishing sau cod malware, scrie The Hacker News.

Pe lângă aceste două metode, cercetătorii au identificat alte trei atacuri relevante:

Context Compliance Attack (CCA) – implică inserarea unei replici aparent benigne într-un istoric de conversație pentru a încuraja divulgarea de informații sensibile.

Policy Puppetry Attack – o tehnică de injectare de prompturi sub forma unor fișiere de tip XML, INI sau JSON, cu scopul de a manipula comportamentul modelului.

Memory Injection Attack (MINJA) – presupune contaminarea memoriei unui agent AI prin interacțiuni strategice, ducând la acțiuni neintenționate sau periculoase.

Folosirea modelelor AI în dezvoltarea de software a ridicat și ea îngrijorări. Codul generat în mod implicit poate fi nesigur, iar siguranța sa depinde semnificativ de claritatea și specificitatea prompturilor, conform unei analize realizate de Backslash Security.

GPT-4.1, MCP și vulnerabilități sistemice în noile generații de modele

Un raport recent arată că GPT-4.1, cel mai nou model OpenAI, este de trei ori mai predispus la abateri de comportament și utilizări greșite decât versiunea anterioară, GPT-4o.

Experții avertizează că trecerea la un model nou nu este trivială și poate aduce vulnerabilități neanticipate, mai ales dacă noile instrucțiuni sunt interpretate diferit.

Standardul Model Context Protocol (MCP), dezvoltat de Anthropic pentru interconectarea surselor de date și a instrumentelor AI, a fost, de asemenea, identificat ca un posibil vector de atac.

Cercetătorii de la Invariant Labs au demonstrat cum un server MCP compromis poate extrage date sensibile și chiar controla comportamentul agentului AI.