Cele mai recente articole

TEPROLIN

TEPROLIN (Tehnologia pentru procesarea limbajului natural-text) este cel de-al doilea proiect dezvoltat în cadrul ReTeRom. După cum se înțelege din titlu, în această etapă, specialiștii au analizat instrumentele de prelucrare a resurselor în limba română, au dezvoltat o arhitectură pentru aceste tehnologii și au implementat modificările necesare pentru a face textele să răspundă cerințelor întregului proiect. 

Pe baza acestor modificări, specialiștii au definit și perfecționat modulele existente, au dezvoltat legături între acestea și viitoarele module NLP, asigurându-se de fluiditatea proceselor tehnice. Ulterior, s-au implementat modulele anterioare în conformitate cu standardele noi identificate de echipa de cercetare. În plus, echipa a definit o serie de funcții definitorii pentru următoarele două proiecte ReTeRom: TADARAV, o tehnologie pentru adnotarea automată a datelor audio și pentru realizarea interfețelor de recunoaștere automată a vorbirii și SINTERO, o tehnologie de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate. Aceste funcții oferă posibilitatea de a eticheta morfo-sintactic cuvintele, de a realiza arborii de dependență a frazelor din cadrul resurselor și de a analiza gramatical cuvintele din corpus. 

Scopul platformei TEPROLIN este de a se ocupa de preprocesările textuale ale resurselor. Printre aceste preprocesări se numără:

  • normalizarea textelor românești și identificarea diacriticelor specifice limbii române;
  • inserarea automată a diacriticelor;
  • despărțirea cuvintelor în silabe;
  • identificarea și înserarea accentelor cuvintelor;
  • transcrierea numeralelor în echivalentele lor literale;
  • expandarea abrevierilor;
  • segmentarea frazelor;
  • segmentarea unităților lexicale;
  • POS tagging (analiza morfo-sintactică);
  • lematizarea (identificarea formelor din dicționar);
  • chunking (identificarea grupurilor nominale, verbale, adjectivale);
  • alcătuirea arborilor de analiză sintactică (dependency parsing).

Pe lângă aspectele tehnice, în această etapă s-au implementat și modificările lingvistice necesare. Una dintre priorități a fost dezvoltarea unui lexicon care putea fi folosit pe întreaga durată a proiectului ReTeRom. În lexicon s-au introdus formele scrise ale cuvintelor și pronunția acestora preluate din corpusurile puse la dispoziție de parteneri. De asemenea, s-au introdus și transcrierile resurselor audio colectate de la parteneri: CoRoLa, RSC, SCC-train, SCC-eval, -SWARA, MARA, și Adevărul.ro. Aceste corpusuri au fost procesate automat, iar unde s-au sesizat erori de transcriere sau de aliniere, acestea s-au corectat manual. De aceea, lexiconul a acoperit toate lemele cuvintelor, trăsăturile morfosintactice, despărțirea lor în silabe, accentul și scrierea lor fonetică. 

În esență, TEPROLIN a dezvoltat o platformă de prelucrare a resurselor adnotate și corectate în cadrul proiectului COBILIRO. Această platformă este oferită sub forma unui serviciu web de tip REST și este disponibilă pe orice calculator conectat la internet.

 

Referințe:

https://www.racai.ro/p/reterom/index.html

https://www.european-language-grid.eu/wp-content/uploads/2020/05/IWLTP2020_Cristea.pdf

https://www.racai.ro/p/reterom/rapoarte/RST%20RETEROM-final.pdf

Check Also

ReTeRom

ReTeRom, numit și Resurse și Tehnologii pentru Dezvoltarea Interfețelor Om-Mașină în Limba Română, este un …

Leave a Reply

Your email address will not be published. Required fields are marked *