Inteligența artificială obosește repede și are tendința să greșească la sarcini simple, arată un nou studiu făcut de Apple
Un nou studiu realizat de cercetătorii Apple provoacă domeniul inteligenței artificiale, arătând că modelele AI specializate în raționament suferă o „prăbușire completă de acuratețe” atunci când sunt suprasolicitate cu probleme complexe.
Modelele de raționament, precum Claude de la Meta, o3 de la OpenAI sau R1 de la DeepSeek, sunt versiuni avansate ale modelelor mari de limbaj (LLM) care folosesc mai mult timp și resurse pentru a oferi răspunsuri considerate mai precise.
Ele au alimentat speculațiile privind apariția inteligenței artificiale generale (AGI), mașini capabile să depășească oamenii în majoritatea sarcinilor.
Ce a scos studiul Apple la iveală
Însă studiul publicat pe 7 iunie pe site-ul Apple Machine Learning Research arată că aceste modele nu numai că nu reușesc să raționeze generalizat, dar performanța lor scade drastic pe măsură ce complexitatea problemelor crește, scrie publicația Live Science.
Autorii scot în evidență, de altfel, un fenomen contrar așteptărilor: efortul raționamentului crește până la un anumit punct, după care scade, deși alocarea de resurse (tokeni) este suficientă.
Pentru a investiga, cercetătorii au testat mai multe modele AI, inclusiv cele de la OpenAI, DeepSeek, Anthropic și Google, folosind patru puzzle-uri clasice cu niveluri variate de dificultate: traversarea râului, săritul pieselor pe tabla de dame, stivuirea blocurilor și Turnul din Hanoi.
Rezultatele au arătat că modelele generice au performat mai bine decât cele de raționament pentru sarcini simple, iar pe măsură ce dificultatea a crescut, modelele de raționament au avut un avantaj temporar. Totuși, pentru probleme foarte complexe, performanța ambelor tipuri de modele a scăzut până aproape de zero.
Cu cât sarcinile sunt mai complexe, cu atât AI-ul o dă în bară mai abitir
Mai mult, modelele au manifestat o tendință surprinzătoare de a aloca mai puțini tokeni pe măsură ce sarcinile devin mai dificile, semn că „raționamentul” lor este limitat și că nu pot menține lanțuri logice complexe. Chiar și atunci când li s-a oferit algoritmul soluției pentru Turnul din Hanoi, performanța nu s-a îmbunătățit.
Constatările indică faptul că modelele AI actuale se bazează mai mult pe recunoașterea tiparelor și mai puțin pe un adevărat proces logic emergent, contrazicând astfel așteptările privind apropierea rapidă de inteligența artificială generală.
Apple, care rămâne în urma rivalilor în cursa AI, pune accent pe dezvoltarea unor soluții eficiente pe dispozitive, cum ar fi Siri, care în unele analize este mai puțin precis decât ChatGPT.
Critici și experți în AI au privit cu ochi buni studiul, considerându-l o doză necesară de realism în mijlocul hype-ului excesiv.
„Apple a demonstrat științific că modelele de limbaj sunt doar rețele neuronale cu limitările lor inerente,” a scris expertul Andriy Burkov, sperând că cercetările vor continua cu o abordare mai riguroasă și matematică.