Cele mai recente articole

TADARAV

TADARAV (Tehnologiile pentru adnotarea automată a datelor audio și pentru realizarea interfețelor de recunoaștere automată a vorbirii) este cel de-al treilea proiect dezvoltat de echipa ReTeRom. 

În această etapă, echipa s-a ocupat de dezvoltarea unui set de tehnologii pentru adnotarea fonetică automată a resurselor audio colectate în etapele anterioare și alinierea fișierelor audio la transcrierea lor fonetică. De asemenea, s-a reantrenat sistemul de recunoaștere automată a vorbirii (RAV) cu fișierele audio colectate în proiectele anterioare. Aceste contribuții au fost posibile în urma studierii aplicațiilor state-of-the-art și a rapoartelor de cercetare anterioare. Aceste studii i-au motivat pe specialiști să dezvolte un sistem de recunoaștere fonetică a limbii și de adnotare automată a textelor. Acest proces a fost automatizat deoarece adnotarea manuală presupune o investiție considerabilă de timp și de efort. De aceea, echipa a implementat aceste sisteme cu ajutorul rețelelor neurale profunde (Deep Neural Network).

Această metodă a îmbunătățit stabilitatea fișierelor audio și, implicit, acuratețea transcrierilor fonetice. Aceste rezultate au fost obținute în urma antrenării sistemelor RAV și implementarea unor soluții necesare adnotării automate a corpusurilor audio. În plus, pentru aceste antrenări s-au folosit 2 corpusuri: Read Speech Corpus (RSC) și Spontaneous Speech Corpus (SSC). Aceste corpusuri conțin atât vorbire citită, fără zgomot în fundal, dar și fișiere preluate de la diferite posturi de radio, afectate într-o mică măsură de zgomote de fundal. Primul corpus conține 315 milioane de cuvinte, iar cel de-al doilea conține 40 de milioane de cuvinte. Acestea au fost adăugate la corpusurile deja existente, fiind adnotate corespunzător înainte de a fi încorporate în cadrul resurselor existente. În urma antrenării, specialiștii au concluzionat că adnotarea automată are o acuratețe de 99%, confirmând eficiența sistemelor RAV care diferă prin modelul acustic (Hidden Markov Model – Gaussian Mixture Model vs Hidden Markov Model – Deep Neural Network), mai degrabă decât a celor care diferă prin modul de codare sau prin tipul de date folosit în antrenare. 

Astfel, sistemele de recunoaștere automată a vorbirii (RAV) folosite în cadrul proiectului ReTeRom s-au îmbunătățit considerabil în cadrul acestei etape. 

Referințe:

https://www.racai.ro/p/reterom/index.html

https://www.racai.ro/p/reterom/rapoarte/RST%20RETEROM-final.pdf

https://tadarav.speed.pub.ro/ro/

Check Also

Egalitatea Lingvistică în Era Digitală

European Language Equality (ELE) este un proiect sprijinit de Parlamentul European și scopul său este  …

Leave a Reply

Your email address will not be published. Required fields are marked *