por ComputerWorld España
El sistema, creado por el BSC y financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center (iniciativa del propio BSC e IBM), está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste.
El equipo del Barcelona Supercomputing Center ha desarrollado un sistema de inteligencia artificial experto en comprender y escribir la lengua española. Se trata del primer modelo que se realiza de esta lengua con la tecnología de inteligencia artificial y basado en datos masivos. El sistema ha sido entrenado con archivos de la Biblioteca Nacional de España (se utilizaron 59 terabytes del archivo web de la institución) usando la tecnología del superordenador MareNostrum.
El proyecto, financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center, una iniciativa del BSC e IBM, hará posible que cualquier desarrollador, empresa o entidad pueda utilizar este sistema sin coste. Esta tecnología puede emplearse en predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otras aplicaciones.
Como indica Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS, las nuevas tecnologías de inteligencia artificial “están transformando completamente el campo del procesamiento del lenguaje natural. Con este proyecto contribuimos a que el país se incorpore a esta revolución científico-técnica y se posicione como actor de pleno derecho en el tratamiento computacional del español”.
¿Cómo funciona MarIA?
El primer modelo de IA masivo de la lengua española es en realidad un “conjunto de modelos del lenguaje” o, como lo explican sus desarrolladores en un comunicado, “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”. Son redes que consiguen trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos.
El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Como explican los responsables del proyecto, para crear el corpus de MarIA, se utilizó el equivalente a 59.000 gigabytes del archivo web de la Biblioteca Nacional. Posteriormente, estos archivos se procesaron para eliminar aquello que no fuera texto bien formado, y se guardaron solamente los textos bien formados en la lengua española. Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.
Este corpus, afirman, “supera en varias órdenes de magnitud el tamaño y la calidad de los corpus disponibles en la actualidad. Se trata de un corpus que enriquecerá el patrimonio digital del español y del propio archivo de la BNE y que podrá servir para múltiples aplicaciones en el futuro, como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y, por supuesto, el entreno de nuevos modelos”.
Una vez creado el corpus, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado buenos resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Para realizar este entrenamiento se necesitaron 184.000 horas de procesador y más de 18.000 horas de GPU.
Tras lanzar los modelos generales, el equipo minería de textos del BSC está trabajando en la ampliación del corpus, con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo publicaciones científicas del CSIC. También está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.