La era de la “prueba de concepto de IA” se está cerrando rápidamente a medida que las empresas buscan pasar de las deslumbrantes demostraciones del potencial de la IA a sistemas de producción que brinden resultados comerciales impactantes.

por  Ravi Kuppuswamy

Sin embargo, como muchas empresas han descubierto durante este reciente auge de la innovación en IA, las implementaciones rara vez son fluidas. Los desafíos son más agudos en el centro de datos. Diseñados en torno a cargas de trabajo transaccionales, estos entornos están sintiendo la presión de las nuevas cargas de trabajo de IA en las que los modelos con miles de millones de parámetros se están convirtiendo en el estándar.

La computación, la energía, la refrigeración y el espacio se están reduciendo, y los líderes tecnológicos deben replantearse el centro de datos desde el silicio hacia arriba si quieren acelerar los resultados empresariales con IA y permitir un éxito sostenido.

Por qué el centro de datos de ayer no puede financiar la IA del mañana

La consolidación de servidores es la primera palanca a la que deben recurrir para prepararse más rápido para la IA.

Los recursos de CPU, el almacenamiento y el ancho de banda de la red ya están funcionando a plena capacidad o cerca de ella. Pero el simple hecho de añadir más racks de hardware con capacidad de IA no es la respuesta cuando el espacio del centro de datos también es escaso, y las demandas de energía y refrigeración siguen siendo preocupantemente altas. El margen de maniobra se ve aún más limitado por la forma en que los costes hundidos de mantenimiento de equipos envejecidos desvían fondos y personas de un trabajo más transformador. Desde este punto de vista, esta deuda de infraestructuras también es un impuesto a la innovación en IA, lo que ralentiza las iniciativas de preparación y crea riesgos para la escalabilidad a largo plazo.

Las CPU de última generación transportan docenas, y a menudo cientos, de núcleos por socket, lo que ofrece un paralelismo masivo para un preprocesamiento de datos eficiente y potentes tareas de inferencia cotidianas. Un servidor basado en AMD EPYC™, por ejemplo, puede reemplazar siete cajas antiguas. 9xx5TCO-002a Esto libera un valioso espacio para clústeres específicos de IA y refrigeración avanzada, mientras que un mayor rendimiento por vatio reduce drásticamente el consumo de energía y, por lo tanto, los costos operativos continuos. De hecho, las organizaciones pueden anticipar ahorros impulsados por la consolidación para financiar inversiones posteriores en IA.

Entrena para el maratón y el sprint

Navegar por la adopción de la IA empresarial y las modernizaciones subyacentes de la infraestructura del centro de datos es un sprint dentro de un maratón. Las herramientas de IA están evolucionando a un ritmo mucho más rápido (meses, incluso semanas) que los ciclos de vida de la infraestructura que abarcan años.

Las empresas pueden salir de los bloques rápidamente con las ganancias de rendimiento a corto plazo que vienen con la consolidación de servidores. Pero convertir ese buen comienzo en una ventaja dominante requerirá una infraestructura flexible y escalable que acorte los plazos de implementación de la IA, evite costosas reescrituras de código y les permita tomar con calma los futuros avances de la IA.

La clave de este tipo de éxito sostenido es seleccionar el proceso adecuado para la carga de trabajo de IA adecuada. El aprendizaje profundo es muy intensivo en datos y exige un mayor ancho de banda de memoria y procesamiento paralelo de las GPU. A una escala más pequeña, la mayoría de las tareas de inferencia se pueden manejar cómodamente utilizando la mayor eficiencia computacional y las fortalezas de orquestación de tareas de las CPU. Pero la combinación de las fortalezas de las CPU con la potencia paralela de la GPU ofrece un camino para manejar los modelos más grandes y satisfacer las crecientes demandas de IA.

Cuando se requiera una nueva infraestructura, los escalamientos horizontales de IA también serán más sencillos para las empresas que opten por seguir con las arquitecturas x86 en lugar de las opciones basadas en ARM, lo que permitirá conservar las aplicaciones x86 existentes. Las organizaciones pueden acelerar aún más los plazos de implementación aprovechando las bibliotecas, los contenedores y las implementaciones de referencia preoptimizadas que se ejecutan rápidamente en la infraestructura elegida.

La informática confidencial es ahora un requisito básico

A medida que la IA se integre en toda la empresa, naturalmente tocará más datos, lo que aumentará las apuestas de seguridad. Lograr una IA de alto rendimiento a menudo depende de hardware heterogéneo (CPU, GPU y aceleradores especializados), distribuidos en múltiples nodos e incluso en múltiples sitios. Garantizar un límite seguro y de confianza en todos los dispositivos y enlaces de red no es trivial. Incluso si los datos están cifrados en reposo, las vulnerabilidades en entornos virtualizados o en contenedores pueden permitir que los hipervisores malintencionados accedan a información confidencial.

Esto hace que la computación confidencial sea un requisito básico para permitir el éxito sostenido con la IA, y las protecciones a nivel de hardware, como la virtualización cifrada segura (SEV), mantienen los modelos y los datos cifrados incluso en la memoria, creando un límite de confianza entre clústeres heterogéneos. Las características de seguridad de nivel de silicio pueden ampliar esa protección a las rutas de E/S y ayudar a contener las amenazas internas o de hipervisor.

Potencie la IA con asociaciones

La claridad estratégica en todo, desde el silicio hasta el software y la seguridad, no solo la medida dura de la inversión de capital, será lo que separe a los líderes de IA de los rezagados en la próxima fase de adopción empresarial. Y la clave para obtener esa claridad será elegir a los socios adecuados con los ecosistemas adecuados.

Un proveedor con una amplia cartera de computación de IA de extremo a extremo y profundas alianzas entre OEM, CSP e ISV agilizará las integraciones y eliminará el riesgo de los futuros pivotes. Igualmente importante es el historial de un proveedor de convertir las pruebas de concepto en producción a escala. Mientras tanto, la ejecución comprobada contra las hojas de ruta de los productos protege el ROI de las apuestas estratégicas que se extienden durante cinco años o más.

Este momento de reinicios de los centros de datos empresariales será audaz y de gran alcance. Se trata de un viaje de varios años que abarca la modernización de las CPU; diseñando arquitecturas híbridas de CPU/GPU flexibles y escalables, incorporando seguridad basada en hardware y eligiendo socios, como AMD, con profundidad de cartera y disciplina en la hoja de ruta.

Al tomar estas decisiones hoy, los líderes tecnológicos pueden establecer una infraestructura preparada para el futuro que agregue valor a largo plazo al mismo ritmo agresivo que ejecuta modelos de IA.

Fuente: https://venturebeat.com/data-infrastructure/preparing-the-data-center-for-enterprise-scale-ai/

Deja una respuesta