12 jun. 2026

Modelo traductor guaraní-español es premiado en evento científico

28489605

Logro. Parte del equipo de investigadores que participó de la conferencia lingüística. GENTILEZA


En un destacado logro académico para las lenguas nativas en América Latina con el guaraní, el investigador paraguayo Marvin Matías Agüero-Torales y el equipo integrado por sus colegas de la Universidad de la República Uruguay recibieron el premio al mejor artículo en la Conferencia Anual 2024 del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL, por sus siglas en inglés).

El trabajo premiado, bajo el título Aumento de datos basado en gramática para idiomas de bajos recursos: El caso de la traducción automática neuronal guaraní – español’, fue fruto de la colaboración entre Agüero-Torales y los informáticos Agustín Lucas, Alexis Baladón, Victoria Pardiñas, Santiago Góngora y Luis Chiruzzo. ‘‘Básicamente, estamos trabajando para proveer recursos al guaraní, recursos lingüísticos para entrenar algoritmos de aprendizaje automático’’, dijo Marvin.

La conferencia tuvo lugar del 16 al 21 de junio en la Ciudad de México y el premio obtenido es muy significativo porque esta conferencia es una de las más importantes en lingüística computacional. Este año, la temática especial era sobre lenguas indígenas y autóctonas de América, y nuestro trabajo fue doblemente premiado: Primero, por ser aceptado en la conferencia principal, que ya es un logro considerable, y luego por ganar el premio especial sobre lenguas de América’’.

DESAFÍO

El trabajo de investigación se centró en la creación de datos sintéticos para el guaraní, un idioma que, aunque se habla ampliamente, tiene pocos recursos digitales escritos. Inesperadamente, utilizando técnicas clásicas basadas en gramática, el equipo generó satisfactoriamente datos paralelos en guaraní y español para entrenar y mejorar los modelos de traducción automática.

Esto teniendo en cuenta que ChatGPT, incluso no posee un amplio conocimiento del idioma nativo ante los escasos recursos. Por ejemplo, el inglés es vasto, incluso el español tiene ya bastante datos e información con que entrenar casi cualquier IA.

‘‘Usamos gramáticas y diccionarios para generar datos sintéticos, creando un corpus paralelo que permitió entrenar mejor nuestros modelos. Esta técnica innovadora, aunque basada en métodos ‘antiguos’, ha demostrado ser efectiva y valiosa, superando incluso al traductor de Google en algunos casos. Por eso fue muy valorado este trabajo’’.

El proyecto llevó alrededor de tres años de desarrollo, nació de una colaboración iniciada tras la conferencia de la NAACL del 2021, cuando, tanto el joven paraguayo como los uruguayos, encontraron puntos en común en sus respectivos trabajos en la computación lingüística. Marvin, quien habla guaraní y que investiga en esta rama, jugó un papel crucial en la validación y mejora de las reglas gramaticales utilizadas para generar los datos sintéticos.

‘‘Este trabajo no solo beneficia al guaraní, sino que también puede aplicarse a otros idiomas indígenas, como por ejemplo, el quechua en Perú, y a otros como en la India con escasos recursos. Esperamos que nuestra investigación inspire más esfuerzos para preservar y digitalizar lenguas minoritarias en todo el mundo’’, concluyó Marvin.

Los investigadores hicieron todo lo posible para que el modelo desarrollado fuera claro y reproducible, y está disponible online para que se pueda reproducir el modelo. ‘‘Es un trabajo intenso el de generar estos datos sintéticos, de hacer varias publicaciones hasta lograrlo. Digamos que es un poco una historia romántica, de encontrarse con gente que cuesta encontrarse, con gente que quiere hacer lo mismo y un poco ir avanzando y peleando poco a poco, justo de dos países que son pequeñitos en la región’’.

De por sí, participar de la conferencia fue un logro, de entre 2.000 a 3.000 trabajos presentados, solo el 23% resultó seleccionado. El premio al mejor artículo en la NAACL 2024 no solo reconoció la excelencia académica del equipo, también resaltó la importancia de las lenguas indígenas y el potencial de la tecnología para su preservación y revitalización, sobre todo en América Latina, gran protagonista del encuentro internacional.

Más contenido de esta sección
12 de junio. A 91 años del acuerdo, destacan la paz duradera.
La Conferencia Episcopal Paraguaya (CEP) alentó a vivir el Mundial 2026 en un ambiente de encuentro, comunión y alegría compartida en un mensaje dirigido a la ciudadanía y a la selección paraguaya con motivo del inicio de la gran fiesta del deporte.
Camiones volquete de la Dirección de Servicios Urbanos de la Municipalidad de Asunción se encuentran fuera de circulación supuestamente por falta de combustible, según fuentes del lugar. Autoridades municipales niegan que esta información sea verídica y la atribuyen a simples rumores. El edil Humberto Blasco aseguró por su parte que “la provisión de combustibles se encuentra bloqueada por falta de pago”.
El titular del Instituto de Previsión Social (IPS), Dr. Isaías Fretes, considera inadmisible que el asegurado deba soportar la carga de las presuntas irregularidades en contrataciones sin consecuencias legales.
Plan de compra y construcción. Previsional analiza adquirir equipos por G. 17 mil millones.
Elevado. Estudio promedio cuesta G. 4 millones, mientras tercerizados cobran G. 22,9 millones.
La Municipalidad de Asunción anunció la reanudación de los desembolsos destinados a los cuerpos de bomberos voluntarios, con una transferencia aproximada de G. 3.000 millones para fortalecer el trabajo de ambas instituciones.