¿Pueden las inteligencias artificiales descifrar lenguas muertas?

El desarrollo de nuevos algoritmos podría ayudar a descifrar escrituras antiguas y lenguas desaparecidas.

Gracias a las inteligencias artificiales, ya es posible realizar traducciones casi instantáneas entre dos lenguas modernas. Aunque la mano del traductor siga siendo necesaria para crear un texto que no suene artificial o poco idiomático, lo cierto es que la informática ha dado pasos de gigante para acercarnos a eso que parecía imposible: que las máquinas consigan entender y producir lenguaje. ¿Qué sucede cuando se aplica la inteligencia artificial para descifrar una lengua muerta? ¿Puede la programación informática alcanzar esos objetivos que se le resisten a los estudiosos?

Algoritmos y lenguas muertas

Escritura etrusca
Láminas de oro con escritura etrusca. Imagen: Wikicommons

En 2019, un equipo del Massachusetts Institute of Technology (MIT), entre los que se encontraba el investigador Jiaming Luo, desarrolló un algoritmo que fuese capaz de descifrar lenguas antiguas. Según la propuesta de partida, el algoritmo podría funcionar se si utilizaba en parejas de idiomas formadas por una lengua indescifrada y una lengua emparentada con la primera cuya gramática y vocabulario se conociesen bien. Para probar la validez y el funcionamiento correcto del programa, el equipo llevó a cabo varios experimentos utilizando dos grupos de lenguas antiguas conocidas: el ugarítico (lengua semítica de las costas del mediterráneo oriental) y el hebreo, por un lado; y el lineal B (una forma del griego primitivo) y el griego, por otro.

Esos primeros testeos proporcionaron resultados nada desdeñables. En el caso del lineal B, el algoritmo proporcionó más de un 65% de exactitud en las traducciones. Empleó, para ello, alrededor de tres horas, un tiempo considerablemente menor que el que necesita un equipo de estudiosos humanos para realizar el mismo trabajo. ¿Qué pasaría, entonces, si se utilizase ese mismo algoritmo con idiomas y escrituras que todavía no hubieran sido descifrados?

El caso de la escritura del Indo

Sello Shiva
Sello con escritura del Indo. Imagen: Wikicommons

Junto a los glifos olmecas y la escritura de Ba-Shu, la escritura del Indo constituye otro de los sistemas gráficos de representación lingüística que se resiste a ser descifrado. La escritura del Indo está presente en unos 4500 objetos inscritos procedentes de India y Pakistán, y pertenecen a la civilización de Harappa, anterior al período védico.

Los estudios que se han realizado hasta el momento han revelado que la grafía comprende entre los 400 y los 700 signos. Algunos estudios, como el propuesto por la Universidad de Harvard, incluso negó que los signos del Indo fuesen una escritura: para el equipo investigador solo se trataba de representaciones de carácter simbólico. Por otro lado, y puesto que se desconoce su parentela lingüística, en el caso específico de la escritura del Indo el algoritmo propuesto por el MIT no funcionaría. ¿Existe algún modo en el que la computación pueda ayudar a solventar el misterio?

Ronojoy Adhikari, profesor de física estadística en la Universidad de Cambridge, lo tuvo claro. La importancia de la cuantificación (esto es, el cálculo de cuántas veces aparece un signo, qué posición ocupa en la secuencia de signos y cómo se combina con los restantes signos) en el proceso de desciframiento permitía trasladar los datos al lenguaje matemático e informático. Su equipo de investigación utilizó las más de 4000 inscripciones en escritura del Indo conocidas y, en menos de una hora, obtuvo la respuesta: los signos del Indo se correspondían claramente con un sistema de escritura.

La simbiosis entre el cerebro humano y la máquina

Inteligencia artificial
Imagen: Pixabay

El deep learning o aprendizaje profundo es la técnica que utilizan las inteligencias artificiales para reconocer patrones en los datos que se le proporcionan. En el aprendizaje profundo, cuanto mayor sea el volumen de datos que se introduzca en la máquina, mayor será la precisión del cálculo y la exactitud de los resultados. En nuestro presente, el uso de inteligencias artificiales y algoritmos, por tanto, necesita de manos y cerebros humanos que les proporcionen datos a partir de los que trabajar.

Existe otro elemento que dificulta que un ordenador pueda, por sí solo, descifrar una escritura desaparecida y las respectivas lenguas muertas que esta codifica. En las escrituras no silábicas, como el cuneiforme, el jeroglífico o los sinogramas, existen ciertos niveles simbólicos y de abstracción en los componentes de la escritura que una máquina, por cuanto sofisticada, todavía no puede reconocer

Aunque los especialistas todavía no han podido codificar de manera adecuada ciertos elementos del conocimiento para que los algoritmos los reconozcan, el equipo del MIT sí ha desarrollado nuevos algoritmos que permiten identificar lenguas emparentadas escritas en escrituras sin descifrar: de este modo, han probado con un grado de fiabilidad bastante alto que el ibérico y el vasco no están emparentados. Sin embargo, estamos lejos de poder dejar en manos de las inteligencias artificiales el desciframiento de lenguas muertas. Un mayor y más profundo conocimiento del cerebro humano podría contribuir a mejorar la investigación en esta dirección, aunque los expertos sostienen que difícilmente una máquina, por sí sola, puede conseguir descifrar un sistema de escritura o un idioma.

Referencias

Kohari, A. 2022. An Ancient Language Has Defied Translation for 100 Year. CAN AI Crack the Code? Rest of World (acceso: 06/04/2022). https://restofworld.org/2022/indus-translation-ai-code-script/

Luo, J. et al. 2019. Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B, en P. Nakov y A. Palmer (eds.), Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, pp. 3146–3155. Florencia: Association for Computational Linguistics.

http://people.csail.mit.edu/j_luo/assets/publications/NeuroDecipher.pdf

 

Erica Couto

Erica Couto

Historiadora y aprendiz de batería. Literatura y cine de terror las 24 horas. Las ruinas me hacen feliz

Continúa leyendo