Tehnologie

Meta face un pas în față în „universul Star Trek”: cum decodează inteligența artificială limbile Pământului

Meta a creat un model de limbaj AI care, conform a ceea ce știm, pare a fi o clonă ChatGPT.

Proiectul Massively Multilingual Speech (MMS) al companiei poate recunoaște mai bine de 4.000 de limbi vorbite și poate produce vorbire (text-to-speech) în peste 1.100 dintre ele.

La fel ca în cazul majorității celorlalte proiecte de inteligență artificială anunțate public, Meta oferă MMS open source.

„Astăzi, împărtășim public modelele și codul nostru, astfel încât alții din comunitatea de cercetare să poată construi pe baza muncii noastre”, a scris Meta.

„Prin această muncă, sperăm să aducem o mică contribuție pentru a păstra incredibila diversitate lingvistică a lumii”, s-a punctat, de asemenea.

Modelele de recunoaștere a vorbirii și de transformare a textului în vorbire necesită, de obicei, antrenament pe mii de ore de sunet cu etichete de transcriere însoțitoare.

Ce legătură există între Meta și Biblie

Meta a folosit o abordare neconvențională pentru colectarea datelor audio: accesarea înregistrărilor audio ale textelor religioase traduse.

„Ne-am orientat către texte religioase, cum ar fi cele din Biblie, care au fost traduse în multe limbi diferite și ale căror traduceri au fost studiate pe scară largă pentru cercetarea traducerii limbilor bazate pe text”, a spus compania.

„Aceste traduceri au înregistrări audio disponibile public, cu persoane care citesc aceste texte în diferite limbi”. Încorporând înregistrările neetichetate ale Bibliei și texte similare, cercetătorii Meta au crescut numărul de limbi disponibile ale modelului la peste 4.000.

„Deși conținutul înregistrărilor audio este religios, analiza noastră arată că acest lucru nu influențează modelul pentru a produce un limbaj mai religios”, a scris Meta.

„Credem că acest lucru se datorează faptului că folosim o abordare de clasificare temporală conecționistă (CTC), care este mult mai restrânsă în comparație cu modelele de limbaj importante (LLM) sau modelele de tip secvență-la-secvență pentru recunoașterea vorbirii”, a continuat gigantul.

După ce a antrenat un model pentru a transforma datele în ceva accesibil, Meta a folosit wav2vec 2.0, modelul companiei de „învățare auto-supravegheată a reprezentării vorbirii”, care se poate antrena pe date neetichetate.