Cele mai recente articole

COBILIRO

Corpusul bimodal pentru limba română adnotat pe multiple niveluri sau COBILIRO este primul proiect dezvoltat de echipa ReTeRom și a avut ca scop crearea unor resurse audio și textuale adnotate în limba română. COBILIRO este un corpus de texte scrise și fișiere audio. Aceste fișiere surprind vorbirea nativilor. Astfel, limba română este surprinsă atât în forma scrisă, cât și în forma vorbită.

Într-o primă etapă, specialiștii au colectat datele lingvistice de la partenerii proiectului. Datele au fost adunate conform unor criterii specifice care le permiteau specialiștilor să determine care este cea mai bună metodă de adnotare. De la partenerii proiectului s-au identificate 11 resurse lingvistice de tipul lexicoanelor, ontologiilor, bazele de date terminologice, colecțiile de vorbire scrise și vorbite. Resursele lingvistice conțin descrieri precum vârsta, sexul subiecților, mediul în care au crescut, dar și descrierea resurselor audio. Mai mult, resursele îndeplinesc standardul internațional de descriere a resurselor Dublin Core, care presupune ca textul să aibă un anumit tip (vorbire/text/bimodal), să i se menționeze titlul, numele autorului resursei, numele celui care pune la dispoziție resursa, entitatea responsabilă de realizarea resursei, descrierea acesteia, data creării, data distribuirii, domeniul, limba, sursa textului, formatul, alinierea (text/voce), drepturile de utilizare, etichetele date de adnotare, dimensiunea resursei și locul unde poate fi găsită resursa. În urma inventarierii, s-a constatat că majoritatea resurselor erau bimodale, însemnând că fișierele conțineau înregistrările audio și transcrierilor lor. În final, specialiștii au reușit să colecteze peste 450 de ore de înregistrări, însoțite de alinierile lor scrise, și 1871 de articole scrise. Toate resursele sunt însoțite de metadate pentru a descrie conținutul textelor și al transcrierilor. 

După colectarea datelor, specialiștii și-au propus să realizeze un portal care să permită accesul la resursele adnotate și dezvoltarea unor convertoare de format pentru orchestrarea resurselor și adaptarea lor la standardul platformei. Portalul cuprinde o secțiune despre membrii proiectului, instituțiile care au contribuit la dezvoltarea proiectului, partenerii externi, serviciile oferite de proiect și informațiile de contact. Tot în cadrul portalului, utilizatorii vor putea accesa resursele existente și vor putea face căutări pe baza unor cuvinte cheie sau pe baza unui formular de interogare și vor putea consulta metodele, documentele și rapoartele de cercetare. Facultatea de Informatică din cadrul universității ”Alexandru Ioan Cuza” a pus la dispoziția echipei platforma ERRIS împreună cu serviciile:

În final, acest corpus va putea fi folosit de către specialiști în construirea sistemelor de recunoaștere și prelucrare a limbii române și a sistemelor de traducere automată. 

 

 

Referințe:

https://www.racai.ro/p/reterom/index_en.html

https://www.racai.ro/p/reterom/rapoarte/D4.7.%20Diseminare_2021_UTCN.pdf

https://www.european-language-grid.eu/wp-content/uploads/2020/05/IWLTP2020_Cristea.pdf

https://www.racai.ro/p/reterom/rapoarte/RST%20RETEROM-final.pdf

Check Also

Egalitatea Lingvistică în Era Digitală

European Language Equality (ELE) este un proiect sprijinit de Parlamentul European și scopul său este  …

Leave a Reply

Your email address will not be published. Required fields are marked *