Que els sistemes d'IA resulten especialment útils per a les aplicacions de traducció automàtica és un fet, encara que també és cert que, si el que pretenem és adquirir un domini realment eficaç d'una llengua, amb aquestes aplicacions no n'hi ha prou, però sí que serveixen per garantir la comunicació més elemental entre persones. Tanmateix, tots aquests sistemes –especialment els d'IA generativa- tenen un problema quan l'objecte amb què es treballa és una llengua minoritària. En aprendre el sistema a partir de la informació que se li facilita, segons menys percentatge d'ús té un idioma, menys possibilitats existeixen que l'aplicació de traducció automàtica el domini. Per solucionar tal fet, un equip d'investigadors de les universitats d'Oviedo, Lleida i Saragossa han activat un projecte que coordina la Universitat Oberta de Catalunya (UOC). Parlem, en concret del projecte Traducció automàtica neuronal per a les llengües romàniques de la península ibèrica.
Set llengües
Dins del projecte, es treballa amb set llengües romàniques ibèriques: el castellà, el portuguès, el català, el gallec, l'asturià, l'aragonès i l'aranès. El sistema que es fa servir és el de xarxes neuronals o machine learning. L'esmentat sistema consisteix en la recerca de paràmetres similars en conjunts d'informació diferents que permeten predir un resultat. Com s'aplica això a les llengües romàniques peninsulars? Senzill: es detecten estructures similars en els diferents idiomes –que no són res més que dialectes del llatí en realitat- i s'utilitzen perquè l'aplicació de traducció pugui comprendre textos que se li faciliten en un idioma del qual amb prou feines té informació prèvia. Per si mateix, no és més que aplicar el mateix mecanisme que permet que un francès que llegeix un text en castellà entengui gran part del mateix malgrat no parlar més que unes quantes paraules de la llengua de Cervantes. D'aquesta manera, els sistemes de traducció basats en xarxes neuronals s'entrenen a partir de milions d'oracions en una llengua amb la seva traducció en una altra llengua.
"El millor de tot és que els sistemes neuronals poden aprendre coses d'una llengua a partir d'altra que se li assembli", explica Antoni Oliver, investigador del grup d'investigació interuniversitari en Aplicacions Lingüístiques (GREAL-UOC), coordinador del projecte i professor dels Estudis d'Arts i Humanitats de la UOC. "Per això vam escollir les llengües romàniques. El procés haurà de ser capaç d'aprendre'n per transferència utilitzant un model entre dues llengües per construir el sistema de traducció entre d'altres dos. Així, per exemple, quan estigui acabada, l'eina de traducció espanyol-aranès haurà après en part gràcies al sistema espanyol-català o a l'espanyol-portuguès", afegeix.
Traductor de lliure ús
L'objectiu final del projecte és la creació d'un sistema de traducció automàtica neuronal lliure d'ús, explica Oliver. Amb ell, s'aspira a fomentar l'ús de les llengües amb menys parlants i ajudar que, qui així ho vulgui, pugui redactar textos i publicar-los en aquest idioma. Amb el traductor lliure que es pretén crear, tots els textos administratius podrien, per exemple, publicar-se gairebé de manera automàtica i amb poc cost i els qui no s'atreveixen a utilitzar aquestes llengües per desconeixement podran sentir-se més segurs. Sense les noves tecnologies, considera Oliver, idiomes com l'asturià, l'aragonès o l'aranès poden "anar desapareixent i és oblidada".