OpenAI refuză să recunoască un lucru evident: Antrenează modelul Sora pe imaginile tale, asta-i întrebarea?
Din momentul în care OpenAI, compania de inteligență artificială din spatele DALL-E și ChatGPT, a dezvăluit noul său generator de video AI, Sora, au existat controverse și întrebări legate de modul în care compania sprijinită de Microsoft și-a antrenat noul model de video.
OpenAI refuză să răspundă
Într-un interviu acordat Wall Street Journal în martie, fostul CEO și actualul CTO al OpenAI, Mira Murati, a refuzat să discute în detaliu setul de date de antrenament al lui Sora sau să facă lumină asupra locului de unde OpenAI ar fi putut să fi furat.
Murati a rămas fermă, insistând că Sora a fost antrenat folosind date disponibile publicului. Ceea ce înseamnă disponibil pentru o persoană ar putea însemna ceva drastic diferit pentru o companie AI.
Opacitatea OpenAI a creat controverse în plus pentru compania care nu este străină de neînțelegeri în relațiile publice.
OpenAI a avut încă o oportunitate să fie deschisă în legătură cu modul în care își antrenează AI-ul. Totuși, asta nu s-a întâmplat.
Shirin Ghaffary de la Bloomberg a discutat cu Brad Lightcap, COO-ul OpenAI, timp de aproape 20 de minute pe scenă la Bloomberg Tech din San Francisco, acoperind diverse subiecte, inclusiv modul în care a fost antrenat Sora, dar fără succes.
Întrebări fără un răspuns clar
Chiar dacă Lightcap a avut destule ocazii să promoveze promisiunile comerciale ale OpenAI, atrăgând fără îndoială investitorii influenți ai companiei, pentru mulți oameni, preocuparea este mai puțin despre viabilitatea comercială a instrumentelor și platformelor OpenAI și mai mult despre modul în care compania le-a construit.
„Vorbind despre Sora, au fost multe discuții, așa cum sigur ai văzut, despre ce date de antrenament au fost folosite pentru a antrena Sora”, a început Ghaffary. „Poți spune, și clarifica odată pentru totdeauna, dacă Sora a fost antrenat cu date de pe YouTube?”.
„Da, adică, uite, conversația despre date este foarte importantă. Evident, trebuie să știm, într-un fel, de unde provin datele. Abia am făcut o postare de săptămâna aceasta despre acest subiect exact, care este practic că trebuie să existe un sistem de identificare a conținutului pentru AI care să permită creatorilor să înțeleagă, pe măsură ce creează lucruri, unde se duc, cine se antrenează pe ele, să poată opta pentru antrenament și utilizare”, s-a răspuns.
Postarea în discuție este un exercițiu lung și vag despre conversațiile publice privind modul în care modelele AI ar trebui să se comporte și are puțin, dacă are ceva, legătură cu datele potențial furate.
Răspunsul lung și evaziv poate însemna ceva, dar întrebarea era dacă OpenAI a folosit date de pe YouTube pentru a antrena Sora.