LOS RETOS DE LA INTELIGENCIA ARTIFICIAL PARA LAS LENGUAS ORIGINARIAS / 334 — ojarasca Ojarasca
Usted está aquí: Inicio / Artículo / LOS RETOS DE LA INTELIGENCIA ARTIFICIAL PARA LAS LENGUAS ORIGINARIAS / 334

LOS RETOS DE LA INTELIGENCIA ARTIFICIAL PARA LAS LENGUAS ORIGINARIAS / 334

HERMANN BELLINGHAUSEN

Una zona particular, en buena medida “menor”, en el debate creciente y con frecuencia confuso sobre los riesgos, limitaciones y posibilidades de la Inteligencia Artificial (IA) se refiere a las lenguas originarias (o indígenas) de América y el mundo. En principio, bien puede resultar una nueva cara del colonialismo a escala tecnológica que imponga una uniformidad insensible y pobre sobre el asunto, pero hay analistas que no soslayan las oportunidades que podría ofrecer si se desarrolla de acuerdo a la mentalidad y la profundidad cultural de cada uno de los pueblos y sus respectivas lenguas.

Un reporte de la UNESCO (Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura), redactado por Luz Elena González Zepeda y Cristina Elena Martínez Pinto, Inteligencia Artificial centrada en los Pueblos Indígenas: Perspectivas desde América Latina y el Caribe (noviembre de 2023), advierte de entrada “que el término pueblos indígenas generaliza y engloba experiencias comunes a más de cinco mil pueblos y comunidades localizados en 90 países del mundo. Para que el uso responsable de tecnología apele a las culturas diversas de la región, las recomendaciones de la UNESCO y sus estudios son sensibles a perspectivas, sistemas de valores, protocolos y contextos únicos que los pueblos identifican como propios” (para acceder al documento, sus fuentes y referencias, ver https://mexico.un.org/es/255872-inteligencia-artificialcentrada-en-los-pueblos-ind%C3%ADgenas-perspectivas-desde-am%C3%A9rica-latina). Las autoras señalan: Mientras que la población mundial es de 8 mil millones de personas, en 2019 se estimó que el desarrollo de sistemas de IA se concentraba en alrededor de 10 mil personas en siete países. Conocer el perfil de las personas que desarrollan sistemas de IA revela la replicación de desigualdades persistentes en otras áreas. A pesar de no contar con datos para la región de América Latina y el Caribe, los datos de Canadá y Estados Unidos, que contribuyen en abundancia a la investigación y desarrollo de IA, nos pueden ayudar a entender mejor la poca participación global de perspectivas diferentes a la norma occidental.

De forma similar, el reporte del índice de Inteligencia Artificial 2023, publicado por el Instituto para la IA Centrada en los Seres Humanos de la Universidad de Stanford, no incluye datos demográficos sobre personas de origen indígena en el desarrollo de IA, haciendo la acotación en el capítulo dedicado a la diversidad que los datos existentes y accesibles de forma pública no son comprensivos, y por el contrario, no permiten explorar varias capas de la diversidad.

La reducida comunidad de desarrolladores se refleja en los sesgos algorítmicos de los productos y servicios basados en IA: al ser realizados por una minoría, con trayectorias y visiones similares sobre el mundo, y utilizando conjuntos de datos sesgados por dichas visiones, sus productos no son generalizables a las distintas poblaciones.

Los sesgos algorítmicos se dan en cada etapa del ciclo de vida de la IA, empezando por los conjuntos de datos de entrenamiento. Si éstos no son representativos de la población de estudio, o las características de un grupo son utilizadas para estudiar a poblaciones distintas, los resultados construirán una imagen distorsionada de la realidad, o incluso una indeseable, que reproduce estereotipos y desigualdades del mundo real.

Hay grupos que aportan perspectivas originales ante los “sesgos heredados” en los sistemas de IA y el desarrollo de la herramienta EIDA (Estereotipos y Discriminación en IA). Destacan también las perpectivas feministas y de género. Un tema central se refiere a la soberania de datos, que implica “dar un manejo a la información acorde a las leyes, prácticas y costumbres de los Estados Nación”. El término se aplica lo mismo a la seguridad nacional que la medicina, en referencia “al poder de actores nacionales y pacientes médico, para manejar y mantener poder sobre su información”.

No debemos olvidar lo que advertio Noam Chomsky en 2023 al New York Times, que la IA “es el mayor robo de propiedad intelectual desde que los colonos europeos llegaron a la tierra de los nativos americanos” La Academia de las Ciencias Sociales de Australia y el Centro para la Investigación en Políticas Económicas Aborígenes realizaron en 2015 el taller “Soberanía de datos para los pueblos indígenas: Prácticas actuales y necesidades a futuro”. Preocupaciones importantes eran el consentimiento, uso, propiedad y almacenamiento de datos de los pueblos indígenas; la propiedad intelectual y consideraciones sobre el uso de datos de pueblos indígenas para la investigación, la formulación y aplicación de políticas; y el uso de los datos para avanzar la autodeterminación de los pueblos indígenas. Aquí, añade el reporte de UNESCO, el concepto de soberanía de datos indígenas “se refiere al derecho de los pueblos indígenas a tener la propiedad, control, acceso y posesión de datos que proceden de ellos, se refieren a sus miembros, sistemas de conocimientos, costumbres y territorios”.

Por su parte, el Movimiento de las Tecnologías No Alineadas (MTNA) propone la descolonización de los datos en esta “nueva era extractivista”. El reporte Mundo Indígena 2020, de la organización International Work Group for Indigenous Affairs (IWGIA), resume las consecuencias de esta desigualdad sistemática: “Los pueblos indígenas normalmente se encuentran ante graves carencias de información al tratar de acceder a datos de gran calidad y culturalmente relevantes para alcanzar sus objetivos, pero sí con abundancia de datos que reflejan y sirven a los intereses gubernamentales sobre los pueblos indígenas y sus tierras”. A la fecha existen pocos esfuerzos nacionales para la cosecha de datos con perspectiva indígena en favor de la autodeterminación de los pueblos, “que no cuentan con información suficiente para evaluar y comparar la situación social y económica de otros pueblos, y evaluar políticas implementadas por éstos, de forma independiente”.

UNESCO apela a los principios de responsabilidad, ética y aprovechamiento de la IA: “Los derechos y el bien estar de los pueblos indígenas deben ser la consideración primaria en todas las etapas del ciclo de vida de los datos y a lo largo de todo el ecosistema de datos”.

Aquí surge un propuesta inquietante ante el dominio ideológico en el desarrollo de la IA: generar Sabiduría Artificial (SA), centrada en la sabiduría humana. Ello, en términos de la capacidad humana única, “caracterizada por la regulación emocional, las conductas prosociales y la autorreflexión”. Para una SA “es necesario incorporar diferentes cosmovisiones y valores que definan la relación de las culturas con la tecnología”, incluidas las de los pueblos indígenas, privilegiando sus “epistemologías relacionales”.

El documento cita un estudio de la indumentaria indígena mexicana: “Con el propósito de abonar a la preservación de las cualidades formales y estéticas de la indumentaria indígena de Los Altos de Chiapas, y explorar propuestas contemporáneas de confección, investigadores de la Universidad Autónoma Metropolitana desarrollaron una máquina de pila capaz de procesar cadenas de texto con técnicas de IA. Esta aplicación reconstruye la iconografía desde su mínima unidad gráfica, por medio de la aplicación de operadores para la reconstrucción de diseños antiguos y la generación de nuevos diseños, arraigados en la esencia visual e iconográfica de dicha cultura”.

Se recopilaron muestras fotográficas de textiles que posibilitaron un catálogo digital de iconografía. “Posteriormente, se realizó un análisis visual para determinar las cualidades formales o características de la indumentaria con análisis geométrico visual, a partir de la observación de las transformaciones simétricas e isométricas de los vectores que componen el patrón. Posteriormente, la máquina de pila se ejecuta por medio de cadenas de notación posfija que indican los patrones de reproducción de los íconos, y se genera como resultado una imagen reconstruida de la indumentaria”.

Un aspecto clave es la comunicación y preservación de las lenguas. Según el Atlas de Lenguas en Peligro de la propia UNESCO, al menos 40 por ciento de las siete mil lenguas que se hablan en el mundo están en riesgo de desaparecer. Un estudio de Agustín de la Herrán Gascón y Yuraima Rodríguez Blanco sintetiza las causas preponderantes de la extinción de las lenguas en América Latina y el Caribe: migración, discriminación linguística, no enseñanza, ausencia de atención y servicios públicos incluyentes, cambio de organización económica y social.

La ONU declaró el año 2019 como Año Internacional de las Lenguas Indígenas (IY2019, por sus siglas en inglés). El documento Resultados Estratégicos del IY2019 concluyó que “las tecnologías digitales, específicamente la tecnología del lenguaje, el desarrollo de contenidos y las divulgación juegan un rol importante en influenciar el desarrollo social al contribuir en la transmisión intergeneracional de las lenguas indígenas”. La correcta pronunciación de una lengua en su proceso de aprendizaje es clave para mantener una comunicación efectiva y construir el conocimiento hacia el dominio de dicha lengua o idioma. En el caso de las lenguas indígenas mexicanas, el gran número de variantes en peligro conduce a una responsabilidad para conservar y revitalizar las lenguas. Un equipo del Instituto Tecnológico Superior de Coatzacoalcos, Veracruz, desarrolló un bot que hace uso de algoritmos de Procesamiento de Lenguaje Natural (PLN) en la evaluación de la pronunciación correcta de palabras en cualquier lengua indígena, siempre y cuando se cuente con los símbolos fonéticos del modelo de voz requerido de por medio.

Para la realización de este proyecto, se utilizó la plataforma DialogFlow de Google como herramienta para la evaluación y corrección de la pronunciación, empleando palabras del mixe bajo. Cuando la plataforma recibe una instrucción por voz, esta busca los símbolos fonéticos de cada morfema, al mismo tiempo que almacena esta información en la nube para extender su aprendizaje y entender nuevos símbolos fonéticos, adicionales al conjunto de datos de arranque. De esta forma, el bot se entrena para procesar un mayor número de palabras sin que éstas sean específicamente incluídas por parte de las personas desarrolladoras, sino mediante la interacción con la plataforma de PLN. La investigación destaca que este producto didáctico es aplicable a cualquier lengua indígena con fonética documentada. Para facilitar la comunicación entre dos o más personas, sin importar la lengua originaria que hablen, y superar barreras culturales entre los mismos pueblos indígenas, Iván Meza y Jesús Mager Hois del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS-UNAM) buscaron generar sistemas automáticos de traducción entre las 11 familias reconocidas de lenguas originarias en México, replicando la experiencia existente con el inglés y el español.

Este proyecto utiliza la técnica de aprendizaje automático y aprendizaje profundo, alimentando a la computadora con ejemplos, que emplea algoritmos para aprender a generar la traducción. Las metodologías utilizadas para la creación de estos traductores automáticos son la traducción estadística (SMT) y la automática, basada en redes neuronales (NMT) en el ecosistema de código abierto OpenNMT. En 2018, el equipo de investigadores presentó sus avances en el trabajo de traducción del wixarika, náhuatl, yorem nokki, purépecha y mexicanero, al español. Los traductores fueron entrenados con 985 frases, traducidas a las cinco lenguas, incluyendo notación morfológica. Los resultados de la traducción estadística (SMT) superaron a los de la traducción basada en redes neuronales (NMT), debido al conjunto de datos reducido para el entrenamiento, ya que las redes neuronales requieren una mayor cantidad de datos de entrada. Además, náhuatl y mexicanero contaron con un mejor desempeño que el wixarika, la cual tiene una cantidad mayor de morfemas por palabra, volviendo más complejo el entrenamiento y la traducción.

Los resultados no bastan para utilizar los traductores de manera autónoma. Son retos el poco uso de tecnologías en las comunidades hablantes de lenguas nativas; la naturaleza polisintética de las lenguas implica la necesidad de mejorar la segmentación morfológica; la topología morfológica fusionante del español es distante a la de las lenguas indígenas, lo cual dificulta la traducción; la falta de estandarización ortográfica y los cambios dialectales.

Otro grupo creó un conjunto de datos multilingües de inferencia en lenguaje natural (NLI) para evaluar las técnicas existentes para la traducción automática de 10 lenguas de América escasos recursos: asháninka, aymara, bribri, guaraní, náhuatl, otomí, quechua, rarámuri, shipibokonibo y wixarika.

Son reiteradas la escasez de datos y la complejidad en las propiedades tipológicas de las lenguas. En las investigaciones aplicadas a lenguas se deberán estudiar las necesidades de las comunidades hablantes, para asegurar que la visión académica coincide con los productos necesarios, deseados o útiles para éstas. Además, se hace hincapié en las preocupaciones que generan este tipo de intervenciones frente a la explotación, mercantilización y extracción de conocimientos de los pueblos indígenas.

La IA generativa puede representar una amenaza inédita para las lenguas originarias. Uno de los peligros, dice UNESCO, “es la falta de atribución al trabajo de las personas autoras y el uso de datos masivos sin consentimiento para el entrenamiento. Whisper, una herramienta de reconocimiento de voz, transcripción y traducción multilingüe desarrollada por OpenAI, se construyó con 680 mil horas de audio disponible en Internet, sin atribución o consentimiento de los pueblos indígenas de los que provienen.

Mientras los proyectos académicos y comunitarios, basados en principios éticos y del cuidado en el uso de datos indígenas, tienen el potencial de ser herramientas para la conservación, la meta de empresas como OpenAI para contar con datos masivos hacia la escalabilidad de sus herramientas implica el uso de datos indígenas sin ningún tipo de control, y en consecuencia refuerza las desigualdades de poder históricas y prevalecientes que invisibilizan a los pueblos indígenas y arrebatan el control sobre su producción cultural.

comentarios de blog provistos por Disqus