Cele mai recente articole
Deep Learning pentru limba Română Veche

DeLORo

DeLORo este un proiect dezvoltat de Academia Română – Filiala Iași fataîmpreună cu Institutul de Informatică Teoretică, Institutul de Filologie Română din Iași „A. Philippide”, Universitatea din București (Facultatea de Matematică – Informatică) a pus bazele unei tehnologii care transcrie automat texte din chirilică în alfabet latin. Specialiștii intenționează să păstreze intacte terminologiile preluate din tipăriturile din secolul XVI pentru a putea studia influențele lingvistice și istorice din limba română.

DeLORo se va axa în special pe descifrarea textelor chirilice românești tipărite între secolele XVI – XIX. Echipa de cercetare a adunat texte sacre și profane, iar aceste texte erau scrise atât de tipar, cât și de mână. Ulterior, specialiștii au decis să ia câte 50 de ani din fiecare perioadă istorică și să creeze un eșantion de 20 de pagini de text, care ulterior va fi testat pentru a se demonstra apartenența de acea perioadă istorică. De aceea, această metodologie este menită să demonstreze empiric influența a două evenimente istorice care au influențat major dezvoltarea limbii române, iar aceste evenimente sunt: unirea din 1859 și cea din 1918. Prin scanarea imaginilor din acele documente și extragerea lexicului din textele chirilice, specialiștii vor putea studia schimbările lingvistice care au avut loc în preajma acestor două mari evenimente.

Tehnologiile dezvoltate în cadrul proiectului se adresează atât informaticienilor pasionați de inteligența artificială, de lingvistica computațională și de metodele de procesare a datelor adnotate, cât și lingviștilor pasionați de limba română veche. De asemenea, geografii, istoricii, legiștii, filosofii, teologii, astronomii sau librarii pot apela cu încredere la aceste tehnologii, deoarece acestea le facilitează lectura, îi ajută să descifreze textele vechi și să le distribuie publicului larg sub forma unor ediții moderne. Imaginile vor putea fi scanate și transformate în versiuni moderne pentru a putea fi înțelese mai bine de către utilizatori. Patrimoniul cultural va deveni, astfel, o sursă de inspirație, dar și de studiu pentru toate tipurile de cercetători.

Pe parcursul proiectului, specialiștii au observat că multe imagini din documentele vechi aveau defecte, nu erau clare sau erau păstrate doar parțial. De asemenea, unele texte nu erau liniare, aveau notițe pe margini sau erau desenate în așa fel încât procesarea lor a devenit aproape imposibilă. Alteori, propozițiile nu erau construite după regulile gramaticale cunoscute, însă s-au păstrat intacte pentru a se demonstra evoluția aspectelor lingvistice, semantice, fonetice și lexicale ale limbii. Specialiștii au intenționat să publice aceste texte originale pe platforma proiectului și să ofere șansa utilizatorilor experți să corecteze erorile de transcriere și să lipească notițele de texte, fără să modifice realitatea lingvistică a documentelor.

DeLORo intenționează ca până în anul 2022 să dezvolte tehnologiile necesare analizei și studiului aspectelor lingvistice și culturale ale limbii române. În plus, echipa și-a propus să depășească stadiul de experiment și să se concentreze pe dezvoltarea unei tehnologii care va putea fi folosită de către cercetătorii care studiază cultura românească scrisă.

 

Referințe:

http://deloro.iit.academiaromana-is.ro/

Check Also

COBILIRO

Corpusul bimodal pentru limba română adnotat pe multiple niveluri sau COBILIRO este primul proiect dezvoltat …

Leave a Reply

Your email address will not be published. Required fields are marked *