Inteligența artificială a poluat deja internetul într-un mod inimaginabil. Cum s-ar putea să „i se întoarcă”, dar până atunci suferim noi
De la lansarea ChatGPT și apariția în lanț a altor modele generative similare, internetul a fost invadat de conținut creat automat, o situație care deja provoacă efecte negative asupra evoluției inteligenței artificiale.
Modelele actuale de AI sunt antrenate pe date existente în mediul online, texte, imagini, coduri și alte forme de conținut, dar, odată ce aceste date sunt „contaminate” de alte rezultate generate de AI, ciclul de învățare se degradează, scrie Futurism.
Această acumulare de conținut artificial duce la ceea ce specialiștii numesc colaps al modelului: în loc ca AI-ul să învețe din surse autentice, sfârșește prin a copia greșelile și limitările altor sisteme automate. Rezultatul? Un fel de ecou perpetuu al propriei superficialități, care reduce calitatea rezultatelor și transformă dezvoltarea AI într-un joc distorsionat de „telefon fără fir”.
Un efect concret al acestei tendințe se observă deja în tehnologiile de tip retrieval-augmented generation (RAG), unde modelele AI completează cunoștințele interne cu informații extrase în timp real de pe internet. Însă și aceste surse online devin tot mai frecvent marcate de conținut artificial, ceea ce duce la un risc crescut de răspunsuri incorecte sau chiar nesigure.
Valorificarea „datelor curate” și riscurile unei epoci digitale contaminate
Maurice Chiodo, cercetător la Centrul pentru Studiul Riscurilor Existențiale din cadrul Universității Cambridge, atrage atenția că datele neafectate de AI, adică acelea dinainte de anul 2022, vor deveni tot mai prețioase.
El compară această situație cu cererea pentru oțelul produs înainte de primele teste nucleare din 1945, folosit astăzi în echipamente medicale sensibile. O paralelă sugestivă care ilustrează cât de dificil va fi, în viitor, să mai găsim informații nealterate digital.
Într-o lucrare co-semnată în 2024 alături de profesorul Rupprecht Podszun, Chiodo susține necesitatea unor „surse curate de date” pentru a garanta o competiție echitabilă între dezvoltatorii de AI.
În lipsa unor reguli clare, situația va deveni tot mai gravă
Fără acest control, doar companiile care au avut acces la datele pre-AI vor putea construi modele performante, în timp ce ceilalți vor fi nevoiți să „sape” într-un internet deja infestat.
Totodată, curățarea acestor date post-2022 se dovedește a fi nu doar dificilă, ci și extrem de costisitoare — în unele cazuri, poate chiar imposibilă.
Etichetarea conținutului generat de AI ar putea ajuta, însă aplicarea unor astfel de reglementări rămâne un obstacol major, mai ales într-un sector reticent la intervenții legislative.
În timp ce industria tehnologică continuă să avanseze cu pași mari, riscul de autodistrugere devine tot mai real. Poluarea digitală provocată de AI afectează deja instrumentele care ar trebui să fie cele mai performante.
Iar dacă nu se vor lua măsuri clare pentru a separa conținutul original de cel generat artificial, viitorul dezvoltării inteligenței artificiale ar putea fi mai fragil decât ne imaginăm.