Tehnologie

Pokemon ar putea fi cel mai bun test pentru inteligență artificială. Cum a devenit un benchmark pentru noul AI Anthropic Claude

Compania Anthropic a decis să-și testeze cel mai nou model de inteligență artificială, Claude 3.7 Sonnet, într-un mod neobișnuit: punându-l să joace Pokémon Red, celebrul joc lansat pentru Game Boy. Folosind o combinație de memorie de bază, input de pixeli de pe ecran și comenzi pentru apăsarea butoanelor, Claude 3.7 Sonnet a reușit să navigheze prin joc și să obțină victorii semnificative.

Testul nu este doar o demonstrație de divertisment, ci subliniază o tendință tot mai des întâlnită: folosirea jocurilor video drept benchmark pentru modelele AI. Capacitatea unui model de a învăța regulile, de a lua decizii strategice și de a se adapta la situații imprevizibile poate indica nivelul său de „raționament extins” – o abilitate crucială pentru AI-urile avansate.

Cum s-a descurcat Claude 3.7 Sonnet?

Comparativ cu versiunea anterioară, Claude 3.0 Sonnet, care nu a reușit nici măcar să părăsească locuința inițială a personajului în Pokémon Red, noul Claude 3.7 Sonnet a înregistrat progrese remarcabile. Modelul a reușit să învingă trei lideri de sală Pokémon (gym leaders) și să colecteze insignele aferente, un semn clar al îmbunătățirilor în ceea ce privește planificarea și execuția sarcinilor.

Anthropic nu a oferit detalii precise despre resursele de calcul necesare pentru această performanță sau despre timpul exact în care AI-ul a atins aceste obiective. Totuși, a menționat că modelul a realizat aproximativ 35.000 de acțiuni pentru a ajunge la liderul de sală Lt. Surge.

Cât de bun e Claude la Pokemon / foto: Anthropic

De ce sunt jocurile video un bun test pentru AI?

Deși Pokémon Red poate părea mai degrabă un test experimental decât unul riguros, istoria utilizării jocurilor video pentru evaluarea AI-urilor este lungă și bine documentată. De-a lungul anilor, cercetătorii au folosit titluri precum Go, Dota 2, StarCraft II și Chess pentru a măsura capacitățile AI-urilor în luarea deciziilor, adaptabilitate și învățare autonomă.

Un aspect esențial al testării cu Pokémon Red este că necesită o combinație între strategii pe termen lung și acțiuni pe termen scurt, ceea ce îl face un test util pentru capacitatea AI-ului de a naviga prin situații complexe. Faptul că modelul Claude 3.7 Sonnet a reușit să progreseze atât de mult în joc sugerează că este capabil să proceseze informații mai bine și să ia decizii mai eficiente decât versiunile anterioare.

Ce urmează pentru AI și testele din gaming?

Utilizarea jocurilor video pentru testarea AI-urilor este în creștere, iar exemplele recente includ evaluarea modelelor de AI prin Street Fighter, Pictionary sau chiar prin diverse simulatoare economice. Deoarece aceste medii oferă provocări variate și necesită o înțelegere avansată a regulilor, ele sunt ideale pentru a evalua cât de bine poate învăța și raționa un AI.

În viitor, este posibil ca astfel de experimente să devină mai frecvente, iar AI-urile să fie testate în jocuri și mai complexe, capabile să simuleze scenarii din viața reală. Până atunci, Pokémon Red rămâne un exemplu fascinant despre cum jocurile copilăriei pot deveni instrumente valoroase pentru tehnologia viitorului.