Isabel Durán, profesora de la Universidad de Córdoba, destapa la brecha lingüística de la IA: “Puede contribuir a la pérdida de diversidad, es un riesgo real”
Idiomas rezagados
La investigadora destaca que los idiomas con más datos compartidos dan resultados más efectivos
Arabia Saudí crea su 'campeón nacional' de centros de datos para IA con una 'joint venture' entre STC y Humain

Isabel Durán, profesora de la Universidad de Córdoba, destapa la brecha lingüística de la IA: “Puede contribuir a la pérdida de diversidad, es un riesgo real”
El auge de la inteligencia artificial ha cambiado la forma de ver y hacer las cosas por parte de la sociedad. Aunque muchos se aferran a la tecnología tradicional por los temores creados por el robo de datos, informaciones y creaciones sin consentimiento, otros se han subido al barco de usar sistemas como ChatGPT, Sora o Grok, que permiten resolver dudas y generar textos o imágenes en cuestión de segundos. La IA también se utiliza para recortar pasos en trámites como la traducción, pero ¿traduce bien a todos los idiomas?
Esa es la pregunta que se ha hecho Isabel Durán, profesora titular de Universidad de Córdoba en el departamento de Filologías Inglesa y Alemana. Mediante un artículo compartido en The Conversation, la investigadora ha indagado en los pros y contras que puede aportar la inteligencia artificial en cuestiones de traducción. Uno de los primeros puntos que destaca, al verse de primeras en cualquier aplicación, es que el grueso de herramientas creadas con esta misión tiene el inglés como lengua principal.

“OpenAI y otras compañías no publican porcentajes exactos del peso de cada idioma en el entrenamiento, y los modelos tampoco pueden calcularlos con los datos que manejan. Aun así, la tendencia es evidente: el inglés domina con diferencia este contexto, seguido por grandes idiomas globales como el español, el francés o el alemán. Con bastante distancia, encontramos lenguas con presencia digital limitada como son el catalán o el galés. Y a una distancia aún mayor, idiomas minoritarios cuyo rastro textual en internet es escaso o casi inexistente”, destacaba.
Esto da como resultado que los idiomas con mayor cantidad de datos proporcionados generan resultados más precisos y naturales, generando más errores en las demás.” La falta de datos afecta también al tipo de escritura: lenguas que usan el alfabeto latino suelen estar mejor cubiertas que aquellas con sistemas menos extendidos digitalmente, como la escritura árabe o alfabetos indígenas, donde la escasez de ejemplos genera más errores”, añadía Durán, destacando las varias estrategias que existen para resolver este problema.

Problemas en ciernes
“Una de las más importantes es el equilibrado del corpus, es decir, el número de textos que emplea para responder. Así pues, incluso si el inglés es miles de veces más abundante, durante el entrenamiento se puede aumentar la frecuencia con la que el modelo consulta idiomas minoritarios y reducir la exposición al inglés. Es una forma de evitar que los idiomas minoritarios queden sepultados. Otra técnica clave es la transferencia multilingüe. Los modelos no aprenden cada idioma por separado: comparten representaciones internas”, ejemplificaba.
A pesar de todas estas prácticas, existe la opción de que la diversidad lingüística se vaya perdiendo por culpa de la IA. “Es un riesgo real. Si funciona mejor en inglés, algunas personas pueden preferir usarla en ese idioma. Si los textos generados tienden a un estilo homogéneo, pueden influir en la escritura institucional, académica o mediática y desplazar, así, registros locales. Y si una lengua apenas aparece en internet, puede quedar fuera de las herramientas tecnológicas que moldean cada vez más nuestra comunicación”, apuntaba.

