SINTERO

Tehnologiile de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate, cunoscut și sub numele de SINTERO, este cel de-al patrulea proiect desfășurat în cadrul ReTeRom. Acest proiect a presupus realizarea unui sistem de sinteză text-vorbire care permite, în același timp, descifrarea prozodiei textelor.

Pe baza modificărilor și progresului anterior, echipa a stabilit încă trei etape de lucru, și anume: stabilirea unor tehnici de control al expresivității, implementarea metodelor de sculptare a prozodiei și ajustarea acesteia la noii utilizatori a vocilor rezumate și dezvoltarea unor tehnologii care detectează expresivitatea din fișierele text-voce. Pornind de la aceste obiective, echipa a desfășurat o serie de activități:

  • identificarea tipurilor de prozodie din texte;
  • modelarea prozodiei identificate;
  • clasificarea stilurilor de exprimare;
  • implementarea algoritmilor pentru reprezentarea vectorială a surselor (locul de unde au fost extrase fișierele text și audio);
  • dezvoltarea unei tehnici de control automat al prozodiei, pornind de la existența unui set de caracteristici precum: stilul textelor,  (declarativ, exclamativ, interogativ), stilul exprimării (de pildă, stil narativ sau jurnalistic)

Într-o primă etapă, echipa a identificat stilurile prozodice, a detectat pauzele și variațiile din cadrul fișierelor audio, a analizat triftongii în funcție de contextul prozodic și a stabilit gradul de expresivitate a textelor. Ulterior, s-a stabilit o listă cu parametrii acustici. În funcție de această listă s-a făcut o clasificare a stilurilor de vorbire, încercându-se și o reprezentare vectorială de tipul Bag of Words, VSM (Vector Space Models) și LSA (Latent Semantic Analysis) a textelor colectate anterior. Mai mult, s-au analizat metodele de adaptare automată a expresivității în sistemele concatenative și statice îmbunătățite în proiectul anterior. În final, s-a realizat un modul de control automat al prozodiei textelor printr-o interfață funcționabilă. De asemenea, s-au sintetizat 3 voci noi pentru a explora stilul neutru, jurnalistic și cel narativ, întâlnit, de obicei, în cărțile audio. Această prozodie și expresivitate a putut fi controlată prin interfața dezvoltată de echipa responsabilă de proiect. 

Pentru recunoașterea emoțiilor și a expresivității s-au folosit arborii de decizie, clasificatorii SVM și rețelele neurale (Neural Networks). Prototipul a constat într-un corpus care cuprindea 5 stilul de expresivitate și 5 tipuri de emoții împărțite în 2500 de fișiere audio. Analiza acestor fișiere audio a demonstrat faptul că fiecare stil are o durată diferită. De exemplu, stilul jurnalistic are o durată mai mică și fiecare text este mai scurt decât celelalte fișiere care aparțin celorlalte stiluri, dar este mai bogat din punct de vedere prozodic. În același timp, s-au dezvoltat voci sintetice pentru fiecare stil pentru a se vedea diferențele dintre vocea originală și cea modelată de sistem. 

Pe parcursul anilor, echipa de specialiști a obținut rezultate remarcabile și a reușit să perfecționeze corpusurile și tehnologiile de recunoaștere a limbajului natural în limba română. În prezent, proiectul are propria pagină web în care se găsesc informații despre etapele aferente, despre fiecare proiect independent în parte, despre echipa care a contribuit la dezvoltarea lor și despre rapoartele care s-au publicat pe parcursul derulării proiectelor. În plus, există și o pagină web care permite utilizatorilor să interacționeze cu modulul de control al prozodiei. 

Referințe:

https://www.racai.ro/p/reterom/rapoarte/RST%20RETEROM-final.pdf

https://www.racai.ro/p/reterom/index_en.html

Check Also

Ziua doamnelor din domeniul NLP

În prezent, ziua femeii se sărbătorește în diferite perioade ale anului, iar în unele țări, …

Leave a Reply

Your email address will not be published. Required fields are marked *