DALL·E 3 și Stable Diffusion, de zeci de ori mai rapide ca până acum. Cum au reușit cercetătorii „minunea”
Cercetătorii au dezvoltat un cadru care oferă un impuls major sistemelor de inteligență artificială generativă precum DALL·E 3 și Stable Diffusion, prin compactarea acestora în modele mai mici, fără a compromite calitatea.
Cele mai populare generatoare de imagini alimentate de inteligență artificială pot funcționa de până la 30 de ori mai rapid datorită unei tehnici care condensează un întreg proces de 100 de etape într-un singur pas, arată noi cercetări.
Cum au făcut DALL·E 3 și Stable Diffusion mai rapide
Cercetătorii au conceput o tehnică numită distribuție match distillation (DMD) care învață noile modele de inteligență artificială să imite generatoarele de imagini deja stabilite, cunoscute sub numele de modele de difuzie, cum ar fi DALL·E 3, Midjourney și Stable Diffusion.
Acest cadru rezultă în modele de inteligență artificială mai mici și mai eficiente, care pot genera imagini mult mai rapid, păstrând în același timp aceeași calitate a imaginii finale. Cercetătorii și-au detaliat descoperirile într-un studiu încărcat pe 5 decembrie 2023, pe serverul arXiv.
Utilizând imagini cu legende descriptive și alte metadate ca date de antrenament, inteligența artificială este antrenată să înțeleagă mai bine contextul și sensul din spatele imaginilor, astfel încât să poată răspunde corect la solicitările de text.
Cum funcționează totul, de fapt
În practică, aceste modele funcționează prin preluarea unei imagini aleatorii și codificarea ei cu un câmp de zgomot aleator, astfel încât să fie distrusă, a explicat omul de știință în domeniul inteligenței artificiale, Jay Alammar, într-o postare pe blog.
Aplicând noul cadru unui nou model și reducând aceste etape de difuzie inversă la una singură, cercetătorii au redus timpul mediu necesar pentru a genera o imagine.
Într-un test, modelul lor a redus timpul de generare a imaginii de la aproximativ 2.590 de milisecunde (sau 2,59 secunde) folosind Stable Diffusion v1.5 la 90 de milisecunde – de 28,8 ori mai rapid.
DMD are două componente care lucrează împreună pentru a reduce numărul de iterații necesare modelului înainte de a furniza o imagine utilizabilă.