Asistentes recorren una sala de exposiciones en AWS re:Invent 2024, una conferencia organizada por Amazon Web Services, en The Venetian Las Vegas el 3 de diciembre de 2024 en Las Vegas, Nevada. (Foto de Noah Berger/Getty Images para Amazon Web Services)
AWS busca ampliar su posición en el mercado con actualizaciones de SageMaker, su plataforma de inferencia y entrenamiento de modelos de inteligencia artificial y aprendizaje automático, agregando nuevas capacidades de observabilidad, entornos de codificación conectados y gestión del rendimiento del clúster de GPU.
por Emilia David
Sin embargo, AWS sigue enfrentándose a la competencia de Google y Microsoft , que también ofrecen muchas funciones que ayudan a acelerar el entrenamiento y la inferencia de la IA.
SageMaker, que se transformó en un centro unificado para integrar fuentes de datos y acceder a herramientas de aprendizaje automático en 2024, agregará funciones que brindan información sobre por qué se desacelera el rendimiento del modelo y ofrecerá a los clientes de AWS más control sobre la cantidad de computación asignada para el desarrollo del modelo.
Otras características nuevas incluyen la conexión de entornos de desarrollo integrados (IDE) locales a SageMaker, de modo que los proyectos de IA escritos localmente se puedan implementar en la plataforma.
Ankur Mehrotra, gerente general de SageMaker, dijo a VentureBeat que muchas de estas nuevas actualizaciones se originaron en los propios clientes.
“Un desafío que hemos visto que enfrentan nuestros clientes al desarrollar modelos de Gen AI es que, cuando algo sale mal o no funciona según lo esperado, es muy difícil encontrar qué está sucediendo en esa capa de la pila”, dijo Mehrotra.
La observabilidad de SageMaker HyperPod permite a los ingenieros examinar las distintas capas de la pila, como la capa de cómputo o la capa de red. Si algo falla o los modelos se ralentizan, SageMaker puede alertarlos y publicar métricas en un panel.
Mehrotra señaló un problema real que su propio equipo enfrentó al entrenar nuevos modelos: el código de entrenamiento comenzó a sobrecargar las GPU, lo que provocó fluctuaciones de temperatura. Añadió que, sin las herramientas más recientes, los desarrolladores habrían tardado semanas en identificar el origen del problema y solucionarlo.
IDE conectados
SageMaker ya ofrecía a los desarrolladores de IA dos maneras de entrenar y ejecutar modelos. Contaba con acceso a IDEs completamente gestionados, como Jupyter Lab o Code Editor, para ejecutar sin problemas el código de entrenamiento en los modelos a través de SageMaker. Al comprender que otros ingenieros prefieren usar sus IDEs locales, incluyendo todas las extensiones que tienen instaladas, AWS les permitió ejecutar su código también en sus equipos.
Sin embargo, Mehrotra señaló que esto significaba que los modelos codificados localmente solo se ejecutaban localmente, por lo que si los desarrolladores querían escalar, resultaba ser un desafío importante.
AWS agregó una nueva ejecución remota segura para permitir que los clientes continúen trabajando en su IDE preferido, ya sea localmente o administrado, y conectarse a SageMaker.
“Esta capacidad ahora les brinda lo mejor de ambos mundos: si lo desean, pueden desarrollar localmente en un IDE local, pero luego, en términos de ejecución de tareas reales, pueden beneficiarse de la escalabilidad de SageMaker”, afirmó.
Más flexibilidad en la computación
AWS lanzó SageMaker HyperPod en diciembre de 2023 para ayudar a los clientes a gestionar clústeres de servidores para entrenar modelos. Al igual que proveedores como CoreWeave , HyperPod permite a los clientes de SageMaker dirigir la potencia de procesamiento no utilizada a su ubicación preferida. HyperPod sabe cuándo programar el uso de la GPU según los patrones de demanda y permite a las organizaciones equilibrar sus recursos y costos de forma eficaz.
Sin embargo, AWS indicó que muchos clientes deseaban el mismo servicio para la inferencia. Muchas tareas de inferencia se realizan durante el día, cuando se utilizan modelos y aplicaciones, mientras que el entrenamiento suele programarse en horas de menor actividad.
Mehrotra señaló que incluso en el mundo de la inferencia, los desarrolladores pueden priorizar las tareas de inferencia en las que HyperPod debería centrarse.
Laurent Sifre, cofundador y director de tecnología de la empresa de agentes de IA H AI , dijo en una publicación del blog de AWS que la empresa utilizó SageMaker HyperPod al desarrollar su plataforma de agentes.
“Esta transición fluida del entrenamiento a la inferencia agilizó nuestro flujo de trabajo, redujo el tiempo de producción y brindó un rendimiento consistente en entornos reales”, afirmó Sifre.
AWS y la competencia
Puede que Amazon no ofrezca los modelos de base más impactantes como sus rivales en la nube, Google y Microsoft. Aun así, AWS se ha centrado más en proporcionar la infraestructura esencial para que las empresas creen modelos, aplicaciones o agentes de IA .
Además de SageMaker, AWS también ofrece Bedrock , una plataforma diseñada específicamente para crear aplicaciones y agentes.
SageMaker lleva años en el mercado, sirviendo inicialmente como un medio para conectar distintas herramientas de aprendizaje automático con data lakes. Con el auge de la IA generativa, los ingenieros de IA comenzaron a usar SageMaker para entrenar modelos de lenguaje. Sin embargo, Microsoft está impulsando con fuerza su ecosistema Fabric, con el 70 % de las empresas de Fortune 500 adoptándolo , para convertirse en un líder en el ámbito de la aceleración de datos e IA. Google, a través de Vertex AI, ha avanzado discretamente en la adopción de la IA empresarial .
AWS, por supuesto, tiene la ventaja de ser el proveedor de nube más utilizado . Cualquier actualización que facilite el uso de sus diversas plataformas de infraestructura de IA siempre será beneficiosa.