Cele mai recente articole

CoRoLa – Corpus de referință pentru limba română contemporană

Corpusul de referință pentru limba română contemporană a debutat în anul 2014 și este rezultatul proiectului CoRoLa de care s-au ocupat două institute ale Academiei Române, Institutul de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu” din București și Institutul de Informatică Teoretică din Iași.

Corpusul poate fi utilizat atat de specialiștii din domeniul lingvistic, cât și de către informaticieni, deoarece cuprinde texte din mai multe domenii, precum: artă, cultură, natură, știință și societate. CoRoLa este o colecție de texte selectate și procesate în conformitate cu criteriile lingvistice existente într-o limbă, iar scopul său este de a fi utilizat ca eșantion pentru o anumită limbă. Echipa de proiect a plănuit să includă în corpus peste 500 de milioane de forme de cuvinte provenite din diverse texte furnizate de reviste, edituri, bloggeri, ziare, gazete, asociații de studenți, institute de lingvistică, universități și posturi radio. Până la finalul proiectului, specialiștii au reușit să proceseze peste un miliard de cuvinte împărțite în 386.501 de fișiere. De asemenea, pe lângă donațiile primite de la persoanele fizice și juridice, au mai fost introduse și texte provenite din surse publice, precum Wikipedia sau paginile oficiale ale instituțiilor statului. Mai mult, corpusul cuprinde texte publicate după al Doilea Război Mondial, deoarece specialiștii au dorit să reprezinte ultima parte a evoluției limbii române. Totodată, textele au fost împărțite în două categorii: texte din perioada comunistă și texte din perioada post-decembristă. Textele din perioada comunistă au fost greu de procesat, deoarece textele nu existau în format electronic, însă au fost printate, scanate și copiate. Ulterior au fost incluse și traduceri din diverse domenii, păstrându-se forma inițială a fiecărui cuvânt tradus și menționându-se fiecare schimbare morfologică și sintactică care a intervenit în procesul traducerii. În plus, au fost adăugate și peste 300 de ore de înregistrări audio împreună cu transcrierile lor. Pentru înregistrările audio, specialiștii au generat automat și o segmentare de voce cu ajutorul Tookit-ului Hidden Markov Model.

Corpusul CoRoLa a fost creat cu scopul de a contribui la:

  • dezvoltarea noilor prototipuri de traducere,

  • dezvoltarea procesului de rezumare automată a textelor în limba română,

  • extragerea de date din textele procesate,

  • indexarea documentelor,

  • identificarea și sintetizarea automată a vorbirii în limba română.

Pentru a se ajunge la această performanță, specialiștii au curățat, verificat, procesat și modelat textele atât manual, cât și automat. S-a verificat existența diacriticelor specifice limbii române, iar cele care s-au pierdut au fost adăugate automat, utilizând toolul RoDiac. De asemenea, cuvintele au fost analizate atât individual, cât și la nivel de propoziție, deoarece unele cuvinte nu aveau diacritice, altele nu au fost transcrise corect sau nu erau corect despărțite în silabe sau nu au fost traduse corect. Înregistrările audio au fost analizate morfosintactic împreună cu transcrierea lor pentru a se păstra un text curat și procesate atât manual, cât și automat cu ajutorul unui software dezvoltat de către membrii echipei de proiect. La fel s-a procedat și în cazul documentelor scanate. Acestea au fost procesate automat, deoarece specialiștii au dorit să păstreze doar textul din fiecare document scanat, nu și tabelele, numerotarea sau imaginile. În plus, alături de detaliile morfosintactice se află și metadatele fiecărui cuvânt, făcând posibilă atribuirea unor informații importante legate de originea fiecărui cuvânt din corpus sau de domeniul din care fac parte cuvintele.

Membrii proiectului au dezvoltat o interfață accesibilă pentru utilizatorii corpusului. Aceștia pot căuta cuvintele după partea de vorbire, după autor, lucrare sau după forma din dicționar. Cea de-a doua interfață, numită NLP-CQP, permite utilizatorilor să facă mai multe tipuri de căutări. Aceștia pot specifica ordinea cuvintelor, pot menționa părțile de vorbire, pot căuta propoziții specifice din diverse texte existente în corpus. În plus, această interfață permite utilizatorilor să acceseze înregistrările audio și să le caute după cuvintele din transcriere, după lemă sau după partea de vorbire atribuită în momentul procesării înregistrărilor. Cea de-a treia interfață permite utilizatorilor să caute un cuvânt după pronunția sa. Înregistrările audio permit utilizatorilor să detecteze particularitățile limbajului specific tuturor zonelor țării, iar acest lucru a fost exploatat de cea de-a treia interfață. Căutarea poate pleca de la un cuvânt sau de la lema unui cuvânt, permițând astfel specialiștilor să descopere proprietățile unui cuvânt. Fiecare căutare este indexată de către platformă fără să afecteze viteza de interogare.

Academia Română a avut în derulare un proiect mult așteptat de specialiștii din domeniul lingvistic și de către informaticieni. CoRoLa este o colecție de texte scrise și vorbite din numeroase domenii și subdomenii de studiu. Așadar, corpusul poate fi folosit de către lingviști pentru detectarea particularităților cuvintelor din limba română, de către lexicografi pentru dezvoltarea dicționarelor, de către profesori în predarea limbii române, dar și de către dezvoltatorii de aplicații care procesează limbajul natural.

 

 

Referințe:

Cristea, Dan, et al. “An Insight into the Corpus of Contemporary Romanian.” Memoirs of the Scientific Sections of the Romanian Academy. 2017.

Tufiș, Dan, Elena Irimia and Veronica Barbu Mititelu. CoRoLa – The Reference Corpus of Contemporary Romanian Language. Research Institute for Artificial Intelligence “Mihai Drăgănescu”. București.

CoRoLa (racai.ro)

KorAP – Corpus Analysis Platform (racai.ro)

CoRoLa – Corpus de referință pentru limba română contemporană

CoRoLa – Corpus de referință pentru limba română contemporană

 „CoRoLa. Accesul la textele scrise și la cele orale”, prima prelegere din 2021 în cadrul CLTA – UniBuc

Check Also

TEPROLIN

TEPROLIN (Tehnologia pentru procesarea limbajului natural-text) este cel de-al doilea proiect dezvoltat în cadrul ReTeRom. …

Leave a Reply

Your email address will not be published. Required fields are marked *