Noua versiune ChatGPT vine la pachet cu „halucinații”: ce explicație au experții în AI
OpenAI ne aduce GPT-4, următoarea evoluție a chatbot-ului preferat al tuturor, ChatGPT.
Pe lângă un model de limbaj mai avansat, care „demonstrează performanțe la nivel uman la diferite teste profesionale și academice”, noua versiune acceptă intrări de imagini și promite un comportament de refuz mai strict pentru a-l împiedica să-ți îndeplinească cererile neplăcute.
Raportul tehnic GPT-4 însoțitor avertizează, totuși, că noul model are încă o capacitate relativ mare pentru ceea ce cercetătorii numesc „halucinații”. Ceea ce sună absolut „sigur”.
Ceea ce se referă cercetătorii atunci când vorbesc despre halucinații este că noul model ChatGPT, la fel ca și versiunea anterioară, are tendința de a „produce conținut care este fără sens sau neadevărat în raport cu anumite surse”.
Deși cercetătorii precizează că „GPT-4 a fost antrenat pentru a reduce tendința modelului de a halucina, prin valorificarea datelor de la modele anterioare, cum ar fi ChatGPT”. Atunci nu numai că îl antrenează pe propriile sale bălării, dar l-au antrenat și prin evaluare umană.
Ce spun experții
„Am colectat date din lumea reală care au fost semnalate ca nefactuale, le-am revizuit și am creat un set „factuale” acolo unde a fost posibil să facem acest lucru. Am folosit acest lucru pentru a evalua generațiile de model în raport cu „factuale” stabiliți și facilitați evaluările umane”.
Procesul pare să fi ajutat în mod semnificativ când vine vorba de subiecte închise, deși chatbot-ul încă are probleme când vine vorba de aspectele mai ample. După cum notează lucrarea, GPT-4 este cu 29% mai bun decât GPT-3.5 atunci când vine vorba de chat-uri cu „domeniu închis”, dar cu doar 19% mai bun la evitarea halucinațiilor „de domeniu deschis”.
ITNEXT explică diferența dintre domeniul deschis și cel închis, prin aceea că „Closed-domain QA este un tip de sistem QA care oferă răspunsuri bazate pe un set limitat de informații într-un anumit domeniu sau bază de cunoștințe”. În schimb, sistemele de QA cu domeniu deschis „oferă răspunsuri bazate pe o gamă largă de informații disponibile pe internet și sunt cele mai potrivite pentru nevoi specifice, limitate de informații”.
Desigur, utilizatorii vor fi supărați de faptul că chatbot-ul le furnizează informații false, deși aceasta nu este cea mai mare problemă. Una dintre principalele probleme este „încrederea excesivă”. Tendința de a halucina „poate fi deosebit de dăunătoare pe măsură ce modelele devin din ce în ce mai convingătoare și mai credibile, ceea ce duce la o dependență excesivă de către utilizatori”, se arată în lucrare.
„În mod contraintuitiv, halucinațiile pot deveni mai periculoase pe măsură ce modelele devin mai veridice, deoarece utilizatorii își construiesc încrederea în model atunci când acesta oferă informații veridice în zonele în care au o anumită familiaritate”. Este firesc pentru noi să avem încredere într-o sursă dacă a fost corectă înainte, dar un ceas stricat o face corect de două ori pe zi, după cum se spune.
Încrederea excesivă devine deosebit de problematică atunci când chatbot-ul este integrat în sisteme automate care ne ajută să luăm decizii în societate. Acest lucru poate provoca o buclă de feedback care poate duce la „degradarea calității generale a informațiilor”.
Problemă de încredere
„Este esențial să recunoaștem că modelul nu este întotdeauna corect în admiterea limitărilor sale, așa cum este demonstrat de tendința sa de a halucinați.”
Lăsând la o parte problemele, dezvoltatorii par destul de optimiști cu privire la noul model, cel puțin conform prezentării generale GPT-4 de pe site-ul OpenAI.
„Am găsit și remediat unele erori și ne-am îmbunătățit bazele teoretice. Drept urmare, cursa noastră de antrenament GPT-4 a fost fără precedent”.
Vom vedea despre asta când va porni din nou cu iluminarea cu gaz, deși defecțiunile despre care am auzit vin în principal prin integrarea ChatGPT de la Bing.
ChatGPT-4 disponibil chiar acum pentru utilizatorii ChatGPT Pro, deși chiar și clienții plătitori ar trebui să se aștepte ca serviciul să fie „constrâns sever de capacitate”.