¿La IA captó la diferencia entre “che mborayhu” y “rohayhu”?, se pregunta un grupo de jóvenes mientras navegan en las pantallas de sus notebooks en la sala de la Facultad de Ingeniería de la Universidad Nacional de Itapúa (UNI), donde ejercen de puente académico entre dos mundos aparentemente tímidos para el avance tecnológico actual: el idioma guaraní y la frontera digital de la inteligencia artificial (IA).
Se trata de un proyecto para fortalecer la inteligencia artificial en lengua guaraní que avanza con la creación de un corpus que busca alcanzar 500.000 oraciones traducidas y validadas, un insumo clave para el desarrollo tecnológico con identidad lingüística.
Según explicó el director del proyecto, MsC. Ing. Aldo Álvarez, actualmente cuentan con apenas “unas tres mil, cuatro mil oraciones”, por lo que aún “queda mucho por trabajar y por validar”.
En este laboratorio lingüístico, cada decisión sobre cómo traducir “ñande” o “ore” representa tanto un desafío como una postura filosófica sobre la identidad paraguaya. Álvarez explica que el proyecto tiene como eje la construcción de un conjunto de datos limpios y de alta calidad que permitan entrenar modelos de IA capaces de manejar el guaraní con precisión.
“Una tecnología va a ser tan buena como los datos que utiliza para aprender de ellos”, afirmó, al destacar la importancia de generar recursos lingüísticos robustos.
El ingeniero explicó que esta iniciativa incluye un “hackathon lingüístico” orientado a acelerar la recopilación y validación de oraciones en guaraní y castellano.
“Lo que estamos buscando hacer es construir un conjunto de datos de traducciones… que pueda ser el combustible para crear tecnología relacionada a la lengua y a la inteligencia artificial”, detalló.
En este sentido, el corpus será clave para mejorar herramientas que hoy presentan fallas al procesar el idioma. “ChatGPT ya tiene conocimiento de lo que es guaraní, pero… tiene muchas falencias”, dijo. Mencionó como ejemplo que “hay palabras que inventa, no distingue todavía entre nombres propios en guaraní”, limitaciones que buscan corregirse con este trabajo.
El especialista remarcó que la calidad del corpus será fundamental para desarrollar aplicaciones capaces de sugerir traducciones confiables y correcciones gramaticales en guaraní. “Tener ese conjunto de datos lo suficientemente grande y lo suficientemente correcto va a hacer que estas tecnologías puedan funcionar correctamente”, aseguró.
Destacó que esto es el inicio de un proceso más amplio que requiere colaboración nacional e internacional, especialmente el enfoque cultural del trabajo y reiteró que el objetivo es “crear ese corpus, ese conjunto de datos limpio que la inteligencia artificial pueda usar” para impulsar el desarrollo tecnológico del guaraní.
Lo que hacemos es juntar la mayor cantidad posible de oraciones, idealmente querríamos llegar a quinientas mil. Aldo Álvarez, ingeniero.