02 jul. 2024

Modelo traductor guaraní-español es premiado en evento científico

28489605

Logro. Parte del equipo de investigadores que participó de la conferencia lingüística. GENTILEZA


En un destacado logro académico para las lenguas nativas en América Latina con el guaraní, el investigador paraguayo Marvin Matías Agüero-Torales y el equipo integrado por sus colegas de la Universidad de la República Uruguay recibieron el premio al mejor artículo en la Conferencia Anual 2024 del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL, por sus siglas en inglés).

El trabajo premiado, bajo el título Aumento de datos basado en gramática para idiomas de bajos recursos: El caso de la traducción automática neuronal guaraní – español’, fue fruto de la colaboración entre Agüero-Torales y los informáticos Agustín Lucas, Alexis Baladón, Victoria Pardiñas, Santiago Góngora y Luis Chiruzzo. ‘‘Básicamente, estamos trabajando para proveer recursos al guaraní, recursos lingüísticos para entrenar algoritmos de aprendizaje automático’’, dijo Marvin.

La conferencia tuvo lugar del 16 al 21 de junio en la Ciudad de México y el premio obtenido es muy significativo porque esta conferencia es una de las más importantes en lingüística computacional. Este año, la temática especial era sobre lenguas indígenas y autóctonas de América, y nuestro trabajo fue doblemente premiado: Primero, por ser aceptado en la conferencia principal, que ya es un logro considerable, y luego por ganar el premio especial sobre lenguas de América’’.

DESAFÍO

El trabajo de investigación se centró en la creación de datos sintéticos para el guaraní, un idioma que, aunque se habla ampliamente, tiene pocos recursos digitales escritos. Inesperadamente, utilizando técnicas clásicas basadas en gramática, el equipo generó satisfactoriamente datos paralelos en guaraní y español para entrenar y mejorar los modelos de traducción automática.

Esto teniendo en cuenta que ChatGPT, incluso no posee un amplio conocimiento del idioma nativo ante los escasos recursos. Por ejemplo, el inglés es vasto, incluso el español tiene ya bastante datos e información con que entrenar casi cualquier IA.

‘‘Usamos gramáticas y diccionarios para generar datos sintéticos, creando un corpus paralelo que permitió entrenar mejor nuestros modelos. Esta técnica innovadora, aunque basada en métodos ‘antiguos’, ha demostrado ser efectiva y valiosa, superando incluso al traductor de Google en algunos casos. Por eso fue muy valorado este trabajo’’.

El proyecto llevó alrededor de tres años de desarrollo, nació de una colaboración iniciada tras la conferencia de la NAACL del 2021, cuando, tanto el joven paraguayo como los uruguayos, encontraron puntos en común en sus respectivos trabajos en la computación lingüística. Marvin, quien habla guaraní y que investiga en esta rama, jugó un papel crucial en la validación y mejora de las reglas gramaticales utilizadas para generar los datos sintéticos.

‘‘Este trabajo no solo beneficia al guaraní, sino que también puede aplicarse a otros idiomas indígenas, como por ejemplo, el quechua en Perú, y a otros como en la India con escasos recursos. Esperamos que nuestra investigación inspire más esfuerzos para preservar y digitalizar lenguas minoritarias en todo el mundo’’, concluyó Marvin.

Los investigadores hicieron todo lo posible para que el modelo desarrollado fuera claro y reproducible, y está disponible online para que se pueda reproducir el modelo. ‘‘Es un trabajo intenso el de generar estos datos sintéticos, de hacer varias publicaciones hasta lograrlo. Digamos que es un poco una historia romántica, de encontrarse con gente que cuesta encontrarse, con gente que quiere hacer lo mismo y un poco ir avanzando y peleando poco a poco, justo de dos países que son pequeñitos en la región’’.

De por sí, participar de la conferencia fue un logro, de entre 2.000 a 3.000 trabajos presentados, solo el 23% resultó seleccionado. El premio al mejor artículo en la NAACL 2024 no solo reconoció la excelencia académica del equipo, también resaltó la importancia de las lenguas indígenas y el potencial de la tecnología para su preservación y revitalización, sobre todo en América Latina, gran protagonista del encuentro internacional.

Más contenido de esta sección
Conductores deben lidiar con un estrés constante por esquivar los pozos y los múltiples gastos debido a los daños ocasionados en los vehículos por los incontables cráteres de Asunción y Central.
Sentencia obliga a intendente de Asunción a entregar documentos detallando la ejecución de créditos que eran para obras. La próxima semana termina tiempo de la segunda orden tras amparo.