26 abr. 2026

Modelo traductor guaraní-español es premiado en evento científico

28489605

Logro. Parte del equipo de investigadores que participó de la conferencia lingüística. GENTILEZA


En un destacado logro académico para las lenguas nativas en América Latina con el guaraní, el investigador paraguayo Marvin Matías Agüero-Torales y el equipo integrado por sus colegas de la Universidad de la República Uruguay recibieron el premio al mejor artículo en la Conferencia Anual 2024 del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL, por sus siglas en inglés).

El trabajo premiado, bajo el título Aumento de datos basado en gramática para idiomas de bajos recursos: El caso de la traducción automática neuronal guaraní – español’, fue fruto de la colaboración entre Agüero-Torales y los informáticos Agustín Lucas, Alexis Baladón, Victoria Pardiñas, Santiago Góngora y Luis Chiruzzo. ‘‘Básicamente, estamos trabajando para proveer recursos al guaraní, recursos lingüísticos para entrenar algoritmos de aprendizaje automático’’, dijo Marvin.

La conferencia tuvo lugar del 16 al 21 de junio en la Ciudad de México y el premio obtenido es muy significativo porque esta conferencia es una de las más importantes en lingüística computacional. Este año, la temática especial era sobre lenguas indígenas y autóctonas de América, y nuestro trabajo fue doblemente premiado: Primero, por ser aceptado en la conferencia principal, que ya es un logro considerable, y luego por ganar el premio especial sobre lenguas de América’’.

DESAFÍO

El trabajo de investigación se centró en la creación de datos sintéticos para el guaraní, un idioma que, aunque se habla ampliamente, tiene pocos recursos digitales escritos. Inesperadamente, utilizando técnicas clásicas basadas en gramática, el equipo generó satisfactoriamente datos paralelos en guaraní y español para entrenar y mejorar los modelos de traducción automática.

Esto teniendo en cuenta que ChatGPT, incluso no posee un amplio conocimiento del idioma nativo ante los escasos recursos. Por ejemplo, el inglés es vasto, incluso el español tiene ya bastante datos e información con que entrenar casi cualquier IA.

‘‘Usamos gramáticas y diccionarios para generar datos sintéticos, creando un corpus paralelo que permitió entrenar mejor nuestros modelos. Esta técnica innovadora, aunque basada en métodos ‘antiguos’, ha demostrado ser efectiva y valiosa, superando incluso al traductor de Google en algunos casos. Por eso fue muy valorado este trabajo’’.

El proyecto llevó alrededor de tres años de desarrollo, nació de una colaboración iniciada tras la conferencia de la NAACL del 2021, cuando, tanto el joven paraguayo como los uruguayos, encontraron puntos en común en sus respectivos trabajos en la computación lingüística. Marvin, quien habla guaraní y que investiga en esta rama, jugó un papel crucial en la validación y mejora de las reglas gramaticales utilizadas para generar los datos sintéticos.

‘‘Este trabajo no solo beneficia al guaraní, sino que también puede aplicarse a otros idiomas indígenas, como por ejemplo, el quechua en Perú, y a otros como en la India con escasos recursos. Esperamos que nuestra investigación inspire más esfuerzos para preservar y digitalizar lenguas minoritarias en todo el mundo’’, concluyó Marvin.

Los investigadores hicieron todo lo posible para que el modelo desarrollado fuera claro y reproducible, y está disponible online para que se pueda reproducir el modelo. ‘‘Es un trabajo intenso el de generar estos datos sintéticos, de hacer varias publicaciones hasta lograrlo. Digamos que es un poco una historia romántica, de encontrarse con gente que cuesta encontrarse, con gente que quiere hacer lo mismo y un poco ir avanzando y peleando poco a poco, justo de dos países que son pequeñitos en la región’’.

De por sí, participar de la conferencia fue un logro, de entre 2.000 a 3.000 trabajos presentados, solo el 23% resultó seleccionado. El premio al mejor artículo en la NAACL 2024 no solo reconoció la excelencia académica del equipo, también resaltó la importancia de las lenguas indígenas y el potencial de la tecnología para su preservación y revitalización, sobre todo en América Latina, gran protagonista del encuentro internacional.

Más contenido de esta sección
La empresa de transporte Magno Línea 12 incorpora mujeres conductoras y, en el marco de su política de inclusión, avanza con el objetivo de sumar al menos 10 más mediante un proceso de capacitación integral, en un sector históricamente dominado por hombres.
La 14 Peregrinación - Caminata Ecológica Nacional por la Naturaleza y Ascenso al Ybytyruzú se realizará el domingo 19 de abril de 2026 en el Santuario Ecológico Jardín Franciscano del Ybytyruzú, ubicado en el distrito de E. A. Garay, Departamento del Guairá.
Desde electricidad hasta artes y artesanías, el Servicio Nacional de Promoción Profesional (SNPP) lanzó 656 cursos gratuitos de capacitación que estarán disponibles durante el mes de abril en todo el país. Las capacitaciones están dirigidas a los jóvenes y adultos interesados en adquirir nuevas habilidades, ampliar sus oportunidades laborales o emprender sus propios negocios.
Una multitud de fieles acompañó en la noche de este lunes el recibimiento de la reliquia de San Francisco de Asís en la Catedral Metropolitana de Asunción, centro de la celebración litúrgica donde se realizó la misa solemne en el marco del VIII Centenario del Tránsito del santo.
En el Día Mundial de la Actividad Física, el Ministerio de Salud recomienda realizar ejercicios físicos para evitar numerosas enfermedades, de manera moderada o intensa para reducir el riesgo de enfermedades cardiovasculares, entre otras.
Tras viajar kilómetros en busca de salud, tienen como única opción alojarse en el albergue del Hospital Central de IPS, donde los servicios básicos no dan abasto. Falta de fármaco es otro problema que enfrentan.