O întrebare simplă de logică pune în dificultate cele mai avansate modele AI: La ce n-au putut răspunde majoritatea tehnologiilor de inteligență artificială
Un nou studiu fascinant realizat de oamenii de știință de la organizația non-profit de cercetare în domeniul inteligenței artificiale LAION arată că chiar și cele mai sofisticate modele lingvistice mari (LLM) sunt frecvent încurcate de o întrebare simplă de logică.
Acest fapt, susțin cercetătorii, pune la îndoială dacă modelele AI de vârf sunt cu adevărat la fel de avansate pe cât susțin creatorii lor.
Modelele AI se confruntă cu dificultăți majore
Studiul se referă la această provocare ca problema „Alice în Țara Minunilor” sau AIW. Este o întrebare simplă de raționament: „Alice are [X] frați și [Y] surori. Câte surori are fratele lui Alice?” (Cercetătorii au folosit mai multe versiuni ale problemei, schimbând cifrele X și Y sau modificând limbajul întrebării pentru a include câteva cerințe suplimentare, dar procesul de raționament necesar pentru a rezolva problema a rămas același).
Deși problema necesită puțină gândire, nu este nici pe departe de nivelul de dificultate al unei ghicitori pentru trolli. (Răspunsul, evident, este câte surori are Alice, plus Alice însăși. Așadar, dacă Alice are trei frați și o soră, fiecare frate ar avea două surori.)
Când cercetătorii au testat această întrebare pe fiecare model lingvistic AI de top — au fost testate modelele GPT-3, GPT-4 și GPT-4o de la OpenAI, Claude 3 Opus de la Anthropic, Gemini de la Google, modelele Llama de la Meta, precum și Mextral de la Mistral AI, Dbrx de la Mosaic și Command R+ de la Cohere — au constatat că modelele au avut rezultate remarcabil de slabe.
Doar un singur model, noul GPT-4o, a obținut un procentaj de succes care, conform standardelor școlare, ar fi considerat tehnic trecător. Și problemele au depășit inexactitățile de bază: când li s-a cerut să-și arate raționamentul, modelele AI au prezentat linii de „gândire” bizare și eronate care nu aveau sens — și chiar mai ciudat, când li s-a spus că răspunsurile lor sunt inexacte, modelele deveneau indignate și insistau asupra răspunsurilor lor greșite.
Acest model general reprezintă o „degradare dramatică a funcției și capacităților de raționament ale modelelor de ultimă generație antrenate la cele mai mari scale disponibile”, scriu cercetătorii LAION în studiu, „folosind o problemă simplă, scurtă și de bun-simț formulată într-un limbaj natural concis, ușor de rezolvat de oameni”.
„Degradarea este dramatică, deoarece modelele exprimă, de asemenea, o încredere exagerată în soluțiile lor greșite, oferind explicații ‘raționale’ adesea lipsite de sens, similare cu confabulațiile, pentru a justifica și susține validitatea răspunsurilor lor evident eșuate, făcându-le să pară plauzibile”, continuă studiul.
Exemple relevante și concluzii
Cercetarea conține zeci de exemple ale diferitelor modele AI care dau greș în diverse variații ale problemei AIW, deși există câteva interacțiuni notabile. De exemplu, în această conversație cu Llama 3 de la Meta, modelul a fost întrebat simplu: „Alice are patru frați și o soră. Câte surori are fratele lui Alice?”.
Aceste descoperiri subliniază limitările actuale ale modelelor AI și necesitatea de a îmbunătăți capacitatea lor de raționament logic, în ciuda complexității și dimensiunii lor impresionante. În timp ce modelele AI au demonstrat abilități remarcabile în multe domenii, această cercetare arată că mai sunt încă multe provocări de depășit pentru a atinge un nivel de raționament comparabil cu cel uman.