29 nov. 2025

Modelo traductor guaraní-español es premiado en evento científico

28489605

Logro. Parte del equipo de investigadores que participó de la conferencia lingüística. GENTILEZA


En un destacado logro académico para las lenguas nativas en América Latina con el guaraní, el investigador paraguayo Marvin Matías Agüero-Torales y el equipo integrado por sus colegas de la Universidad de la República Uruguay recibieron el premio al mejor artículo en la Conferencia Anual 2024 del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL, por sus siglas en inglés).

El trabajo premiado, bajo el título Aumento de datos basado en gramática para idiomas de bajos recursos: El caso de la traducción automática neuronal guaraní – español’, fue fruto de la colaboración entre Agüero-Torales y los informáticos Agustín Lucas, Alexis Baladón, Victoria Pardiñas, Santiago Góngora y Luis Chiruzzo. ‘‘Básicamente, estamos trabajando para proveer recursos al guaraní, recursos lingüísticos para entrenar algoritmos de aprendizaje automático’’, dijo Marvin.

La conferencia tuvo lugar del 16 al 21 de junio en la Ciudad de México y el premio obtenido es muy significativo porque esta conferencia es una de las más importantes en lingüística computacional. Este año, la temática especial era sobre lenguas indígenas y autóctonas de América, y nuestro trabajo fue doblemente premiado: Primero, por ser aceptado en la conferencia principal, que ya es un logro considerable, y luego por ganar el premio especial sobre lenguas de América’’.

DESAFÍO

El trabajo de investigación se centró en la creación de datos sintéticos para el guaraní, un idioma que, aunque se habla ampliamente, tiene pocos recursos digitales escritos. Inesperadamente, utilizando técnicas clásicas basadas en gramática, el equipo generó satisfactoriamente datos paralelos en guaraní y español para entrenar y mejorar los modelos de traducción automática.

Esto teniendo en cuenta que ChatGPT, incluso no posee un amplio conocimiento del idioma nativo ante los escasos recursos. Por ejemplo, el inglés es vasto, incluso el español tiene ya bastante datos e información con que entrenar casi cualquier IA.

‘‘Usamos gramáticas y diccionarios para generar datos sintéticos, creando un corpus paralelo que permitió entrenar mejor nuestros modelos. Esta técnica innovadora, aunque basada en métodos ‘antiguos’, ha demostrado ser efectiva y valiosa, superando incluso al traductor de Google en algunos casos. Por eso fue muy valorado este trabajo’’.

El proyecto llevó alrededor de tres años de desarrollo, nació de una colaboración iniciada tras la conferencia de la NAACL del 2021, cuando, tanto el joven paraguayo como los uruguayos, encontraron puntos en común en sus respectivos trabajos en la computación lingüística. Marvin, quien habla guaraní y que investiga en esta rama, jugó un papel crucial en la validación y mejora de las reglas gramaticales utilizadas para generar los datos sintéticos.

‘‘Este trabajo no solo beneficia al guaraní, sino que también puede aplicarse a otros idiomas indígenas, como por ejemplo, el quechua en Perú, y a otros como en la India con escasos recursos. Esperamos que nuestra investigación inspire más esfuerzos para preservar y digitalizar lenguas minoritarias en todo el mundo’’, concluyó Marvin.

Los investigadores hicieron todo lo posible para que el modelo desarrollado fuera claro y reproducible, y está disponible online para que se pueda reproducir el modelo. ‘‘Es un trabajo intenso el de generar estos datos sintéticos, de hacer varias publicaciones hasta lograrlo. Digamos que es un poco una historia romántica, de encontrarse con gente que cuesta encontrarse, con gente que quiere hacer lo mismo y un poco ir avanzando y peleando poco a poco, justo de dos países que son pequeñitos en la región’’.

De por sí, participar de la conferencia fue un logro, de entre 2.000 a 3.000 trabajos presentados, solo el 23% resultó seleccionado. El premio al mejor artículo en la NAACL 2024 no solo reconoció la excelencia académica del equipo, también resaltó la importancia de las lenguas indígenas y el potencial de la tecnología para su preservación y revitalización, sobre todo en América Latina, gran protagonista del encuentro internacional.

Más contenido de esta sección
Los recientes documentos de ejecución de ingresos y gastos remitidos a la Junta Municipal de Asunción, revelan que la Municipalidad recibe ingresos altísimos por servicios que ofrece a medias y con deficiencias, como es el caso de la recolección de basura. Dicho servicio se ve resentido por la falta de camiones en buen estado, lo cual obliga a la Comuna a alquilar vehículos.
Con la edición del miércoles 3 de diciembre, Última Hora lanzará María, Reina & Madre, un libro que reúne la historia y el significado espiritual de las 20 advocaciones marianas más representativas de Latinoamérica, incluida la Virgen de Caacupé. La obra viene acompañada de un rosario de regalo y estampitas con oraciones de cada advocación.
La Dirección de Investigación de la Comisión Nacional de la Competencia (Conacom) formalizó una acusación contra la Municipalidad de Asunción por una supuesta infracción de la Ley de Defensa de la Competencia, específicamente por abuso de posición dominante en el mercado de control de plagas.
Ante la crisis de los buses internos de la capital que se encuentran en decadencia y a punto de desaparecer, el director de Tránsito y Transporte de la Municipalidad de Asunción, Vicente Cappello, sostuvo que se requiere el reajuste del pasaje a G. 3.400.
La Comisión Nacional de la Competencia (Conacom) impuso una multa al ex intendente de Asunción Óscar Andrés Rodríguez Quiñónez, por incumplir con el deber de colaboración requerido por la institución en el marco de un proceso administrativo.