Companiile AI continuă să extragă date de pe site-uri: Cum îți protejezi informațiile personale
Mai multe companii de inteligență artificială ignoră instrucțiunile din fișierele robots.txt, conform unui raport Reuters.
Perplexity, o companie care își descrie produsul ca fiind „un motor de căutare AI gratuit”, a fost recent criticată după ce Forbes a acuzat-o de furt și republicare a unor articole pe diverse platforme. Wired a raportat că Perplexity a ignorat Protocolul de Excludere a Roboților (robots.txt) și a extras date de pe site-urile sale și alte publicații ale Condé Nast.
Site-ul de tehnologie The Shortcut a acuzat, de asemenea, compania de extragere a articolelor sale. Acum, Reuters a raportat că Perplexity nu este singura companie AI care ignoră fișierele robots.txt și extrage conținut pentru a-și antrena tehnologiile.
Scrisoarea de avertizare a TollBit
Reuters a obținut o scrisoare adresată editorilor de la TollBit, o startup care îi ajută să încheie acorduri de licențiere cu firme AI, avertizându-i că „agenții AI din mai multe surse (nu doar de la o singură companie) optează să ignore protocolul robots.txt pentru a prelua conținut de pe site-uri”. Fișierul robots.txt conține instrucțiuni pentru crawlerele web despre ce pagini pot și nu pot accesa. Dezvoltatorii web folosesc acest protocol din 1994, dar conformarea este complet voluntară.
Deși scrisoarea TollBit nu a numit nicio companie, Business Insider a aflat că OpenAI și Anthropic — creatorii chatbot-urilor ChatGPT și Claude, respectiv — ignoră semnalele robots.txt. Ambele companii au declarat anterior că respectă instrucțiunile „nu crawling” pe care site-urile le pun în fișierele robots.txt.
Investigația Wired și reacția Perplexity
În timpul investigației sale, Wired a descoperit că o mașină de pe un server Amazon „operată de Perplexity” ignora instrucțiunile din fișierul robots.txt al site-ului său. Pentru a confirma dacă Perplexity extrăgea conținutul său, Wired a oferit instrumentului companiei titluri din articolele sale sau scurte descrieri ale poveștilor sale. Instrumentul a generat rezultate care parafrazau strâns articolele sale „cu minimă atribuire” și uneori chiar a generat rezumate inexacte — Wired spune că chatbot-ul a afirmat în mod fals că a raportat despre un anumit polițist din California care a comis o crimă într-un caz.
Într-un interviu acordat Fast Company, CEO-ul Perplexity, Aravind Srinivas, a declarat că compania sa „nu ignoră Protocolul de Excludere a Roboților și apoi minte despre asta”. Cu toate acestea, el a recunoscut că se poate beneficia de crawlere care ignoră protocolul. Srinivas a explicat că compania folosește crawlere web terțe pe lângă propriile sale, iar crawler-ul identificat de Wired era unul dintre acestea. Când Fast Company a întrebat dacă Perplexity a cerut furnizorului de crawler să oprească extragerea datelor de pe site-ul Wired, el a răspuns doar că „este complicat”.
Srinivas a apărat practicile companiei sale, afirmând că Protocolul de Excludere a Roboților „nu este un cadru legal” și sugerând că editorii și companiile precum a sa ar putea avea nevoie să stabilească un nou tip de relație. El a insinuat, de asemenea, că Wired a folosit intenționat prompturi pentru a face chatbot-ul Perplexity să se comporte așa cum a făcut-o, astfel încât utilizatorii obișnuiți nu vor obține aceleași rezultate. În ceea ce privește rezumatele inexacte generate de instrument, Srinivas a spus: „Nu am afirmat niciodată că nu am avut halucinații”.