Tehnologie

Compania AI care a făcut prăpăd în încercarea de a-și antrena inteligența artificială. Cum a distrus milioane de cărți în format fizic

Startupul Anthropic, susținut de Google, a recunoscut recent că a distrus milioane de cărți tipărite pentru a obține datele necesare antrenării modelului său de inteligență artificială, Claude.

Potrivit unei decizii recente a unui tribunal federal din SUA, compania a decupat paginile din volumele achiziționate, le-a scanat pentru a obține versiuni digitale, apoi a aruncat materialele originale.

Această practică, denumită scanare distructivă, a fost validată juridic de judecătorul William Alsup în cadrul unui proces privind drepturile de autor, oferind un precedent periculos pentru industria tehnologică, potrivit Futurism.

Judecătorul a invocat doctrina primei vânzări, potrivit căreia cumpărătorul are dreptul să utilizeze bunul achiziționat cum dorește, inclusiv să-l distrugă.

Astfel, Anthropic nu ar fi fost obligată să obțină licențe de la autori sau editori pentru a folosi conținutul cărților în scopuri interne.

Ocolirea licențelor prin distrugerea cărților

Potrivit documentelor instanței, CEO-ul Dario Amodei a angajat în 2024 un fost director din cadrul proiectului Google Books, Tom Turvey, pentru a găsi o cale de a accesa „toate cărțile din lume” fără a fi împiedicat de legislație sau birocrație.

Soluția a fost achiziționarea masivă de cărți tipărite, urmată de scanarea lor distructivă. Fiind folosite doar în scop intern, cărțile scanate nu ar fi fost „redistribuite” în sens comercial, susține Anthropic.

Judecătorul Alsup a mers până la a califica distrugerea volumelor ca o modalitate de „economisire a spațiului”, un act „transformativ” care, conform jurisprudenței, justifică utilizarea fără permisiune a conținutului protejat prin drepturi de autor.

Implicații etice și culturale

Decizia instanței și practica Anthropic au stârnit critici severe din partea comunității artistice și științifice. Nu este pentru prima dată când companiile tech exploatează în mod discutabil patrimoniul cultural: Anthropic și Meta au fost acuzate anterior că au folosit cărți piratate pentru a-și alimenta modelele AI.

În plus, există metode bine stabilite pentru digitalizarea cărților fără a le distruge, precum cele folosite de Internet Archive sau Google Books, însă acestea presupun mai multă grijă și costuri mai mari.

În goana după date și profit, se pare că multe companii preferă calea rapidă, chiar dacă aceasta presupune sacrificarea surselor originale de cunoaștere.

Industria AI se confruntă deja cu o criză a conținutului de calitate disponibil pentru antrenament, parțial și din cauza propriei politici de a consuma fără a contribui.

În acest context, arderea podurilor culturale în numele progresului tehnologic ridică întrebări serioase despre viitorul cunoașterii, al creativității și al respectului pentru autorii care au construit aceste resurse.