Que los sistemas de IA resultan especialmente útiles para las aplicaciones de traducción automática es un hecho, aunque también es cierto que, si lo que pretendemos es adquirir un dominio realmente eficaz de una lengua, estas aplicaciones no bastan, pero sí que sirven para garantizar la comunicación más elemental entre personas. Sin embargo, todos estos sistemas –especialmente los de IA generativa- tienen un problema cuando el objeto con el que se trabaja es una lengua minoritaria. Al aprender el sistema a partir de la información que se le facilita, conforme menos porcentaje de uso tiene un idioma, menos posibilidades existen de que la aplicación de traducción automática lo domine. Para solucionar tal hecho, un equipo de investigadores de las universidades de Oviedo, Lleida y Zaragoza han activado un proyecto que coordina la Universitat Oberta de Catalunya (UOC). Hablamos, en concreto del proyecto Traducción automática neuronal para las lenguas románicas de la península ibérica.

 

Siete lenguas

Dentro del proyecto, se trabaja con siete lenguas románicas ibéricas: el castellano, el portugués, el catalán, el gallego, el asturiano, el aragonés y el aranés. El sistema que se emplea es el de redes neuronales o machine learning. Dicho sistema consiste en la búsqueda de parámetros similares en conjuntos de información diferentes que permiten predecir un resultado. ¿Cómo se aplica eso a las lenguas románicas peninsulares? Sencillo: se detectan estructuras similares en los diferentes idiomas –que no son nada más que dialectos del latín en realidad- y se utilizan para que la aplicación de traducción pueda comprender textos que se le facilitan en un idioma del que apenas tiene información previa. En sí, no es más que aplicar el mismo mecanismo que permite que un francés que lee un texto en castellano entienda gran parte del mismo a pesar de no hablar más que unas pocas palabras de la lengua de Cervantes. De este modo, los sistemas de traducción basados en redes neuronales se entrenan a partir de millones de oraciones en una lengua con su traducción en otra lengua.

"Lo bueno es que los sistemas neuronales pueden aprender cosas de una lengua a partir de otra que se le parezca", explica Antoni Oliver, investigador del grupo de investigación interuniversitario en Aplicaciones Lingüísticas (GRIAL-UOC), coordinador del proyecto y profesor de los Estudios de Artes y Humanidades de la UOC. "Por eso escogimos las lenguas románicas. El proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dos lenguas para construir el sistema de traducción entre otras dos. Así, por ejemplo, cuando esté terminada, la herramienta de traducción español-aranés habrá aprendido en parte gracias al sistema español-catalán o al español-portugués", añade.

 

Traductor de libre uso

El objetivo final del proyecto es la creación de un sistema de traducción automática neuronal libre de uso, explica Oliver. Con él, se aspira a fomentar el uso de las lenguas con menos hablantes y ayudar a que, quien así lo quiera, pueda redactar textos y publicarlos en ese idioma. Con el traductor libre que se pretende crear, todos los textos administrativos podrían, por ejemplo, publicarse casi de manera automática y con poco coste y quienes no se atreven a usar estas lenguas por desconocimiento podrán sentirse más seguros. Sin las nuevas tecnologías, considera Oliver, idiomas como el asturiano, el aragonés o el aranés pueden “ir desapareciendo y ser olvidadas”.