Meta a trișat cu inteligența artificială: Ce s-a descoperit despre AI-ul Maverick, din suita Llama
Scorul ridicat obținut de Meta în clasamentul LMArena a fost contestat, compania fiind acuzată că a livrat o versiune „optimizată pentru simpatie” în locul celei reale disponibile utilizatorilor.
Meta a fost prinsă pe picior greșit după ce a publicat rezultate spectaculoase pentru noul model AI, Maverick, parte a suitei Llama 4.
Conform unei investigații publicate de The Verge, entuziasmul din jurul performanței aparent remarcabile a modelului s-a transformat rapid în suspiciune, iar ulterior în acuzații explicite privind manipularea unui test de referință.
Totul a început când Meta a anunțat lansarea a două modele noi: Scout, proiectat pentru interogări rapide, și Maverick, o alternativă eficientă la modele consacrate precum GPT-4o.
În comunicatul oficial, Meta a subliniat că Maverick a obținut un scor ELO de 1417 în cadrul platformei LMArena, un sistem colaborativ open-source de benchmarking, unde utilizatorii votează output-ul preferat.
Scorul a propulsat modelul pe locul doi în clasament, peste GPT-4o și imediat sub Gemini 2.5 Pro, provocând uimire în comunitatea AI.
Model „experimental” și prea prietenos de la Meta
După o examinare atentă a notelor de subsol din documentația Meta, specialiștii au observat că varianta Maverick care a înregistrat acel scor nu era identică cu cea pusă la dispoziția publicului.
Meta a recunoscut că modelul folosit în test a fost „personalizat pentru a optimiza preferințele umane”, adică fusese programat să fie mai vorbăreț și mai agreabil în răspunsuri.
Cu alte cuvinte, a câștigat voturi prin șarm, nu neapărat prin inteligență.
Reprezentanții LMArena au reacționat rapid: „Interpretarea Meta a politicilor noastre nu a corespuns cu așteptările pe care le avem de la furnizorii de modele. Meta ar fi trebuit să specifice mai clar că ‘Llama-4-Maverick-03-26-Experimental’ era o versiune personalizată”.
O practică veche în haine noi
Specialiștii în tehnologie nu sunt surprinși. Alex Cranz, jurnalist tech cu experiență în benchmarking, remarcă faptul că „trișatul” în testele de performanță este aproape un ritual în industrie.
De la telefoane și laptopuri care ajustau luminozitatea sau eliminau aplicații pentru a obține scoruri mai bune, până la actuala eră AI în care „botul mai prietenos” poate câștiga un clasament, tentația de a modifica rezultatele este mare.
Pe măsură ce competiția între companiile din domeniul inteligenței artificiale se intensifică, micile diferențe, chiar și de 2,46% în eficiență, devin atuuri importante în marketing.
Totuși, astfel de practici riscă să submineze încrederea în evaluările obiective ale performanței modelelor.
Într-un ecosistem în care fiecare model promite să scrie eseuri, să traducă texte și să răspundă politicos în orice limbă, companiile vor fi nevoite să demonstreze superioritatea produselor lor nu doar prin scoruri de laborator, ci și prin experiențe reale, transparente și repetabile.
În caz contrar, chatbot-ul „șarmant” ar putea deveni doar o altă mască într-o cursă tot mai competitivă.