por A. Tarantola
Con 1,75 billones de parámetros, Wu Dao 2.0 es aproximadamente diez veces el tamaño del GPT-3 de Open AI.
Cuando el modelo GPT-3 de Open AI hizo su debut en mayo de 2020, su rendimiento fue ampliamente considerado como el estado de la técnica literal. Capaz de generar texto indiscernible a partir de la prosa creada por humanos, GPT-3 estableció un nuevo estándar en el aprendizaje profundo. Pero, oh, qué diferencia hace un año. Investigadores de la Academia de Inteligencia Artificial de Beijing anunciaron el martes el lanzamiento de su propio modelo de aprendizaje profundo generativo, Wu Dao, una IA gigantesca aparentemente capaz de hacer todo lo que GPT-3 puede hacer, y más.

En primer lugar, Wu Dao es enorme. Ha sido entrenado en 1,75 billones de parámetros ( esencialmente, los coeficientes autoseleccionados del modelo ) que es diez veces más grande que los 175 mil millones de GPT-3 en los que se entrenó y 150 mil millones de parámetros más grandes que los Switch Transformers de Google .
Para entrenar un modelo en tantos parámetros y hacerlo rápidamente (Wu Dao 2.0 llegó solo tres meses después del lanzamiento de la versión 1.0 en marzo) , los investigadores de BAAI desarrollaron por primera vez un sistema de aprendizaje de código abierto similar al Mixture of Experts de Google , denominado FastMoE . Este sistema, que funciona en PyTorch , permitió entrenar el modelo tanto en grupos de supercomputadoras como en GPU convencionales. Esto le dio a FastMoE más flexibilidad que el sistema de Google, ya que FastMoE no requiere hardware propietario como las TPU de Google y, por lo tanto, puede ejecutarse en hardware estándar, a pesar de los clústeres de supercomputación.
Con toda esa potencia informática viene un montón de capacidades. A diferencia de la mayoría de los modelos de aprendizaje profundo que realizan una sola tarea (escribir una copia, generar falsificaciones profundas, reconocer caras, ganar en Go), Wu Dao es multimodal , similar en teoría a la IA contra el discurso del odio de Facebook o al recientemente lanzado MUM de Google. Los investigadores de BAAI demostraron las habilidades de Wu Dao para realizar tareas de procesamiento de lenguaje natural, generación de texto, reconocimiento de imágenes y generación de imágenes durante la conferencia anual del laboratorio el martes. El modelo no solo puede escribir ensayos, poemas y coplas en chino tradicional, sino que también puede generar texto alternativo basado en una imagen estática y generar imágenes casi fotorrealistas basadas en descripciones de lenguaje natural. Wu Dao también mostró su capacidad para impulsar ídolos virtuales (con un poco de ayuda de XiaoIce, el spin-off de Microsoft) y predecir las estructuras 3D de proteínas como AlphaFold .
“El camino hacia la inteligencia artificial general son los grandes modelos y las grandes computadoras”, dijo el Dr. Zhang Hongjiang, presidente de BAAI, durante la conferencia del martes. “Lo que estamos construyendo es una planta de energía para el futuro de la inteligencia artificial, con mega datos, mega potencia de cómputo y mega modelos, podemos transformar los datos para alimentar las aplicaciones de inteligencia artificial del futuro”.
Fuente: https://www.engadget.com/chinas-gigantic-multi-modal-ai-is-no-one-trick-pony-211414388.html