Tehnologie

MusicGen AI de la Meta folosește text pentru a crea combinații de genuri de cântece

MusicGen AI de la Meta transformă melodiile la fel cum Midjourney și ChatGPT modifică imaginile și textul.

Echipa de cercetare Audiocraft a lui Meta tocmai a lansat MusicGen, un model de limbaj de învățare profundă open source care poate genera muzică nouă pe baza solicitărilor de text și chiar poate fi aliniat la o melodie existentă, conform The Decoder. Se aseamănă mult cu ChatGPT pentru audio, permițându-ți să descrii stilul de muzică pe care îl dorești, să introduci o melodie existentă (opțional) și apoi să faci clic pe „Generați”. După o bucată de timp (aproximativ 160 de secunde), generează o bucată scurtă de muzică complet nouă, bazată pe mesajele și melodia ta.

Ce poate face MusicGen AI de la Meta

Demo-ul de pe site-ul Facebook Hugging Face AI îți permite să descrii muzica, oferind câteva de exemple precum „un cântec pop din anii 80, cu tobe grele și pad-uri de sinteză în fundal”. Poți apoi să „condiționezi” acest lucru pentru o anumită melodie, de până la 30 de secunde, cu comenzi care să permită selectarea unei anumite porțiuni din aceasta. Apoi, doar apasă pe generare și redă o probă de înaltă calitate de până la 12 secunde.

Echipa a folosit 20.000 de ore de muzică licențiată pentru antrenament, inclusiv 10.000 de melodii muzicale de înaltă calitate dintr-un set de date intern, împreună cu melodii Shutterstock și Pond5. Pentru a o face mai rapidă, au folosit tokenizerul audio EnCodec de 32Khz de la Meta pentru a genera bucăți mai mici de muzică care pot fi procesate în paralel.

We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf

— Felix Kreuk (@FelixKreuk) June 9, 2023

„Spre deosebire de metodele existente precum MusicLM, MusicGen nu necesită o reprezentare semantică auto-supravegheată și are doar 50 de pași auto-regresivi pe secundă de sunet”, a scris Ahsen Khaliq, inginerul Hugging Face ML, într-un tweet.

De asemenea, luna trecută, Google a lansat un generator de muzică similar numit MusicLM, dar MusicGen pare să genereze rezultate puțin mai bune. Pe o pagină de probă, cercetătorii compară producția MusicGen cu MusicLM și cu alte două modele, Riffusion și Musai, pentru a demonstra acest lucru. Poate fi rulat local (se recomandă un GPU cu cel puțin 16 GB de RAM) și disponibil în patru dimensiuni de model, de la mic (300 de milioane de parametri) la mari (3,3 miliarde de parametri) – acesta din urmă având cel mai mare potențial pentru producerea de muzică complexă.