El MI300 hace que 13 piezas de silicio se comporten como un solo chip.

por Samuel K. Moore

El AMD Instinct MI300a. AMD

AMD levantó el capó de su próximo chip acelerador de IA, el Instinct MI300, en el evento AMD Advancing AI de hoy, y es una hazaña sin precedentes de integración 3D. El MI300, una versión de la cual alimentará la supercomputadora El Capitán, es un pastel de capas de computación, memoria y comunicación que tiene tres rebanadas de silicio de alto y que puede lanzar hasta 17 terabytes de datos verticalmente entre esas rebanadas. El resultado es un aumento de hasta 3,4 veces en la velocidad para ciertos cálculos críticos para el aprendizaje automático. El chip ofrece contrastes y similitudes con enfoques de la competencia, como el superchip Grace Hopper de Nvidia y el acelerador de supercomputadoras Ponte Vecchio de Intel.

El MI300a apila tres chiplets de CPU (llamados troqueles complejos de cómputo, o CCD, en la jerga de AMD) y seis chiplets aceleradores (XCD) en la parte superior de cuatro troqueles de entrada-salida (OID), todo en la parte superior de una pieza de silicio que los une a ocho pilas de DRAM de alto ancho de banda que hacen sonar el superchip. (El MI300x sustituye los CCD por dos XCD más, para un sistema de solo acelerador). Con la desaceleración de la escala de los transistores en el plano del silicio, el apilamiento 3D se considera un método clave para obtener más transistores en la misma área y seguir impulsando la Ley de Moore.

Rectángulos grises, etiquetados con líneas verticales naranjas y doradas que los conectan.
Los chiplets de computación e IA se apilan sobre los chiplets de E/S y caché en el MI300a. AMD

“Es una pila de silicio realmente sorprendente que ofrece el rendimiento de mayor densidad que la industria sabe producir en este momento”, dice Sam Naffziger, vicepresidente senior y miembro corporativo de AMD. La integración se realiza utilizando dos tecnologías de Taiwan Semiconductor Manufacturing Co., SoIC (sistema en chips integrados) y CoWoS (chip en oblea en sustrato). Este último apila chips más pequeños encima de los más grandes mediante unión híbrida, que une almohadillas de cobre en cada chip directamente sin soldadura. Se utiliza para producir V-Cache de AMD, un chiplet de expansión de memoria caché que se apila en sus chiplets de CPU de gama alta. El primero, CoWos, apila chiplets en una pieza más grande de silicio, llamada interposición, que está construida para contener interconexiones de alta densidad.

Similitudes y diferencias entre AMD y Nvidia

Hay similitudes y diferencias con el enfoque de su principal rival, Nvidia. Al igual que Nvidia lo hizo en su arquitectura Hopper, la arquitectura aceleradora de AMD, CDNA3, agregó la capacidad de computación con números truncados de 32 bits llamados TF32 y con dos formas diferentes de números de punto flotante de 8 bits. Este último atributo se utiliza para acelerar el entrenamiento de ciertas partes de las redes neuronales transformadoras, como los modelos de lenguaje grandes. También incluyen un esquema que reduce el tamaño de la red neuronal, llamado dispersión 4:2.

Otra similitud es la inclusión de CPU y GPU en el mismo paquete. En muchos sistemas informáticos de IA, las GPU y las CPU son chips empaquetados por separado que se implementan en una proporción de 4 a 1. Una ventaja de unirlos en un solo superchip es que tanto la CPU como la GPU tienen acceso de gran ancho de banda a la misma memoria caché y DRAM de alto ancho de banda (HBM) de una manera que no se tropezarán entre sí mientras leen y escriben datos.

El Grace Hopper de Nvidia es una combinación de superchips que vincula la CPU Grace a la GPU Hopper a través de las interconexiones Nvidia NVLink Chip-2-Chip de Nvidia. El MI300a de AMD también lo es, al integrar tres troqueles de CPU diseñados para su línea Genoa y seis aceleradores XCD que utilizan su tecnología de interconexión AMD Infinity Fabric.

Pero un vistazo casual a Grace Hopper y MI300 muestra algunas diferencias profundas. Grace y Hopper son matrices individuales que integran todos los bloques funcionales necesarios de un sistema en chip: computación, E/S y caché. Están unidos horizontalmente y son grandes, casi en el límite de tamaño de la tecnología de fotolitografía.

AMD adoptó un enfoque diferente, uno que ha seguido durante varias generaciones de sus CPU y que su rival Intel utilizó para su acelerador de supercomputadoras apiladas en 3D Ponte Vecchio. El concepto se denomina sistema-tecnología-co-optimización, o STCO. Eso significa que los diseñadores comenzaron por descomponer el chip en sus funciones y decidieron qué funciones necesitaban qué tecnología de fabricación.

Una porción de MI300 apilado desde el silicio portador en la parte superior hasta la bola de soldadura en la parte inferior del paquete. AMD

“Lo que queríamos hacer con el MI300 era escalar más allá de lo que era posible en una sola GPU monolítica. Así que lo deconstruimos en pedazos y luego lo volvimos a construir”, dice Alan Smith, investigador principal y arquitecto jefe de Instinct. Aunque lo ha estado haciendo durante varias generaciones de CPU, el MI300 es la primera vez que la compañía fabrica chiplets de GPU y los vincula en un solo sistema.

“Dividir la GPU en chiplets nos permitió colocar el cómputo en el nodo de proceso más avanzado mientras manteníamos el resto del chip en una tecnología que es más apropiada para la caché y la E/S”, señala. En el caso del MI300, toda la computación se construyó utilizando el proceso N5 de TSMC, el más avanzado disponible y el que se utiliza para las GPU de primera línea de Nvidia. Ni las funciones de E/S ni la memoria caché del sistema se benefician de N5, por lo que AMD eligió una tecnología menos costosa (N6) para ellas. Por lo tanto, esas dos funciones podrían construirse juntas en el mismo chiplet.

Con las funciones divididas, todas las piezas de silicio involucradas en el MI300 son pequeñas. Los más grandes, los troqueles de E/S, no son ni la mitad del tamaño de Hopper. Y los CCD son solo una quinta parte del tamaño de la matriz de E/S. Los tamaños pequeños marcan una gran diferencia. Por lo general, las virutas más pequeñas rinden mejor. Es decir, una sola oblea proporcionará una mayor proporción de chips pequeños que funcionan que los grandes. “La integración 3D no es gratuita”, dice Naffziger. Pero el mayor rendimiento compensa el costo, dice.

Suerte y experiencia

El diseño implicó una reutilización inteligente de tecnologías y diseños existentes, algunos compromisos y un poco de suerte, según Naffziger, miembro del IEEE. La reutilización se produjo en dos casos. En primer lugar, AMD pudo realizar la integración 3D con cierto grado de confianza porque ya había estado utilizando exactamente el mismo paso de interconexiones verticales (9 micrómetros) en su producto V-cache.

Como complemento opcional por el que AMD pudo cobrar más, V-cache ofrece poco riesgo de que el bajo rendimiento u otros problemas tengan un gran impacto en la empresa. “Ha sido una gran cosa permitirnos exprimir los problemas de fabricación y todas las complejidades de diseño del apilamiento 3D sin poner en peligro la línea principal de productos”, dice Naffziger.

El otro caso de reutilización fue un poco más chancier. Cuando el equipo del MI300 decidió que se necesitaba una combinación de CPU y GPU, Naffziger preguntó “algo tímidamente” al jefe del equipo que diseñaba el CCD Zen4 para la CPU Genoa si el CCD podía adaptarse a las necesidades del MI300. Ese equipo estaba bajo presión para cumplir con una fecha límite más temprana de lo esperado, pero un día después respondieron. Naffziger estaba de enhorabuena; el CCD Zen4 tenía un pequeño espacio en blanco en el lugar justo para realizar las conexiones verticales a la matriz de E/S MI300 y sus circuitos asociados sin interrumpir el diseño general.

Sin embargo, todavía había algo de geometría que necesitaba ser resuelta. Para que todas las comunicaciones internas funcionaran, los cuatro chiplets de E/S tenían que estar uno frente al otro en un borde particular. Eso significaba hacer una versión de imagen especular del chiplet. Debido a que fue codiseñado con el chiplet de E/S, el XCD y sus conexiones verticales se construyeron para conectarse con ambas versiones de E/S. Pero no hubo problemas con el CCD, que tuvieron la suerte de tener. Así que, en su lugar, la E/S se diseñó con conexiones redundantes, de modo que sin importar en qué versión del chiplet se encontrara, el CCD se conectaría.

Rectángulo multicolor con letras mayúsculas en algunos lugares.
Para que todo se alineara, los chiplets IOD tenían que hacerse como espejos entre sí, y los chiplets del acelerador (XCD) y del cómputo (CCD) tenían que rotarse. AMD

La red eléctrica, que tiene que entregar cientos de amperios de corriente a los troqueles de cómputo en la parte superior de la pila, enfrentó desafíos similares porque también tuvo que adaptarse a todas las diversas orientaciones de chiplets, señaló Naffziger.

Fuente: https://spectrum.ieee.org/amd-mi300

Deja una respuesta