A medida que se dispara la demanda de implementación de IA a gran escala, la startup de chips privados menos conocida Positron se está posicionando como un desafío directo al líder del mercado Nvidia al ofrecer chips de inferencia dedicados, energéticamente eficientes y optimizados para memoria destinados a aliviar los crecientes cuellos de botella de costos, energía y disponibilidad de la industria.
por Carl Franzen
- Entrar en un mercado desafiante que está disminuyendo el tamaño del modelo de IA y aumentando la eficiencia
- Atlas es un chip de IA de inferencia
- De Atlas a Titán, compatible con modelos de parámetros multimillonarios
- Ingeniería para la eficiencia y la compatibilidad
- La memoria es lo que necesitas
- Chips fabricados en EE. UU.
- ¿Qué sigue?
“Un diferenciador clave es nuestra capacidad para ejecutar modelos de IA de vanguardia con una mejor eficiencia, logrando un rendimiento de 2 a 5 veces por vatio y dólar en comparación con Nvidia”, dijo Thomas Sohmers, cofundador y CTO de Positron, en una reciente entrevista por videollamada con VentureBeat.
Obviamente, esas son buenas noticias para los grandes proveedores de modelos de IA, pero el liderazgo de Positron sostiene que es útil para muchas más empresas más allá, incluidas aquellas que utilizan modelos de IA en sus flujos de trabajo, no como ofertas de servicios para los clientes.
“Construimos chips que se pueden implementar en cientos de centros de datos existentes porque no requieren refrigeración líquida ni densidades de potencia extremas”, señaló Mitesh Agrawal, CEO de Positron y ex director de operaciones del proveedor de inferencia en la nube de IA Lambda, también en la misma entrevista por videollamada con VentureBeat.
Los capitalistas de riesgo y los primeros usuarios parecen estar de acuerdo.
Positron anunció ayer una ronda de financiación Serie A de 51,6 millones de dólares liderada por Valor Equity Partners, Atreides Management y DFJ Growth, con el apoyo de Flume Ventures, Resilience Reserve, 1517 Fund y Unless.
En cuanto a la base de clientes inicial de Positron, eso incluye tanto empresas de marca como empresas que operan en sectores con mucha inferencia. Las implementaciones confirmadas incluyen el principal proveedor de redes de seguridad y contenido en la nube Cloudflare, que utiliza el hardware Atlas de Positron en sus centros de datos distribuidos globalmente y con limitaciones de energía, y Parasail, a través de su plataforma de infraestructura de datos nativa de IA SnapServe.
Más allá de estos, Positron informa la adopción en varias verticales clave donde la inferencia eficiente es crítica, como redes, juegos, moderación de contenido, redes de entrega de contenido (CDN) y proveedores de Token-as-a-Service.
Según se informa, estos primeros usuarios se sienten atraídos por la capacidad de Atlas para ofrecer un alto rendimiento y un menor consumo de energía sin necesidad de refrigeración especializada o una infraestructura reelaborada, lo que la convierte en una opción atractiva para las cargas de trabajo de IA en entornos empresariales.
Entrar en un mercado desafiante que está disminuyendo el tamaño del modelo de IA y aumentando la eficiencia
Pero Positron también está entrando en un mercado desafiante. The Information acaba de informar quela startup de chips de inferencia de IA Groq, donde Sohmers trabajó anteriormente como Director de Estrategia Tecnológica, ha reducido su proyección de ingresos para 2025 de $ 2 mil millones + a $ 500 millones, lo que destaca cuán volátil puede ser el espacio de hardware de IA.
Incluso las empresas bien financiadas enfrentan vientos en contra mientras compiten por la capacidad del centro de datos y la mentalidad empresarial contra proveedores de GPU arraigados como Nvidia, sin mencionar el elefante en la habitación: el aumento de modelos de lenguaje grande (LLM) más pequeños y eficientes y modelos de lenguaje pequeño especializados (SLM) que incluso pueden ejecutarse en dispositivos tan pequeños y de baja potencia como los teléfonos inteligentes.
Sin embargo, el liderazgo de Positron por ahora está adoptando la tendencia y haciendo caso omiso de los posibles impactos en su trayectoria de crecimiento.
“Siempre ha existido esta dualidad: aplicaciones livianas en dispositivos locales y procesamiento pesado en infraestructura centralizada”, dijo Agrawal. “Creemos que ambos seguirán creciendo”.
Sohmers estuvo de acuerdo y afirmó: “Vemos un futuro en el que cada persona podría tener un modelo capaz en su teléfono, pero esos aún dependerán de grandes modelos en los centros de datos para generar conocimientos más profundos”.
Atlas es un chip de IA de inferencia
Si bien las GPU de Nvidia ayudaron a catalizar el auge del aprendizaje profundo al acelerar el entrenamiento de modelos, Positron argumenta que la inferencia, la etapa en la que los modelos generan resultados en producción, es ahora el verdadero cuello de botella.
Sus fundadores lo llaman la parte menos optimizada de la “pila de IA”, especialmente para cargas de trabajo de IA generativa que dependen de un servicio de modelos rápido y eficiente.
La solución de Positron es Atlas, su acelerador de inferencia de primera generación construido específicamente para manejar grandes modelos de transformadores.
A diferencia de las GPU de uso general, Atlas está optimizado para las necesidades únicas de memoria y rendimiento de las tareas de inferencia modernas.
La compañía afirma que Atlas ofrece un rendimiento 3.5 veces mejor por dólar y hasta un 66% menos de uso de energía que el H100 de Nvidia, al tiempo que logra una utilización del ancho de banda de memoria del 93%, muy por encima del rango típico del 10 al 30% que se observa en las GPU.
De Atlas a Titán, compatible con modelos de parámetros multimillonarios
Lanzado solo 15 meses después de su fundación, y con solo $ 12.5 millones en capital inicial, Atlas ya se está enviando y en producción.
El sistema admite modelos de hasta 0,5 billones de parámetros en un solo servidor de 2kW y es compatible con los modelos de transformadores Hugging Face a través de un punto final compatible con la API de OpenAI.
Positron ahora se está preparando para lanzar su plataforma de próxima generación, Titan, en 2026.
Construido sobre silicio “Asimov” diseñado a medida, Titan contará con hasta dos terabytes de memoria de alta velocidad por acelerador y admitirá modelos de hasta 16 billones de parámetros.
Los modelos de frontera actuales están en los cientos de miles de millones y billones de un solo dígito de parámetros, pero se presume que los modelos más nuevos como GPT-5 de OpenAI están en los multibillones, y actualmente se cree que se requieren modelos más grandes para alcanzar la inteligencia artificial general (AGI), IA que supera a los humanos en el trabajo más valioso económicamente, y superinteligencia, IA que excede la capacidad de los humanos para comprender y controlar.
Fundamentalmente, Titan está diseñado para operar con refrigeración por aire estándar en entornos de centros de datos convencionales, evitando las configuraciones de alta densidad y refrigeración líquida que las GPU de próxima generación requieren cada vez más.
Ingeniería para la eficiencia y la compatibilidad
Desde el principio, Positron diseñó su sistema para que fuera un reemplazo directo, lo que permitía a los clientes usar binarios de modelos existentes sin reescribir código.
“Si un cliente tenía que cambiar su comportamiento o sus acciones de alguna manera, eso era una barrera”, dijo Sohmers.
Sohmers explicó que en lugar de construir una pila de compiladores compleja o rediseñar los ecosistemas de software, Positron se centró estrechamente en la inferencia, diseñando hardware que ingiere modelos entrenados por Nvidia directamente.
“El modo CUDA no es algo para luchar”, dijo Agrawal. “Es un ecosistema en el que participar”.
Este enfoque pragmático ayudó a la empresa a lanzar su primer producto rápidamente, validar el rendimiento con usuarios empresariales reales y asegurar una importante inversión de seguimiento. Además, su enfoque en la refrigeración por aire frente a la refrigeración líquida hace que sus chips Atlas sean la única opción para algunas implementaciones.
“Estamos enfocados completamente en implementaciones puramente refrigeradas por aire… todas estas soluciones basadas en Nvidia Hopper y Blackwell en el futuro requieren refrigeración líquida… El único lugar donde se pueden colocar esos racks es en los centros de datos que se están construyendo ahora en medio de la nada”, dijo Sohmers.
En total, la capacidad de Positron para ejecutarse de manera rápida y eficiente en capital ha ayudado a distinguirlo en un mercado de hardware de IA abarrotado.
La memoria es lo que necesitas
Sohmers y Agrawal apuntan a un cambio fundamental en las cargas de trabajo de IA: de redes neuronales convolucionales vinculadas a la computación a arquitecturas de transformadores vinculadas a la memoria.
Mientras que los modelos más antiguos exigían altos FLOP (operaciones de punto flotante), los transformadores modernos requieren una capacidad de memoria masiva y ancho de banda para funcionar de manera eficiente.
Mientras Nvidia y otros continúan enfocándose en el escalado de cómputo, Positron está apostando por el diseño de memoria primero.
Sohmers señaló que con la inferencia del transformador, la relación entre las operaciones de computación y memoria cambia a casi 1:1, lo que significa que aumentar la utilización de la memoria tiene un impacto directo y dramático en el rendimiento y la eficiencia energética.
Dado que Atlas ya supera a las GPU contemporáneas en métricas clave de eficiencia, Titan tiene como objetivo llevar esto más allá al ofrecer la mayor capacidad de memoria por chip en la industria.
En el lanzamiento, se espera que Titan ofrezca un aumento de orden de magnitud sobre las configuraciones típicas de memoria de GPU, sin exigir refrigeración especializada o configuraciones de red boutique.
Chips fabricados en EE. UU.
La línea de producción de Positron es orgullosamente nacional. Los chips de primera generación de la compañía se fabricaron en los EE. UU. utilizando instalaciones de Intel, y el ensamblaje e integración final del servidor también se basaron en el país.
Para el chip Asimov, la fabricación se trasladará a TSMC, aunque el equipo tiene como objetivo mantener la mayor parte posible del resto de la cadena de producción en los EE. UU., Dependiendo de la capacidad de fundición.
La resiliencia geopolítica y la estabilidad de la cadena de suministro se están convirtiendo en criterios de compra clave para muchos clientes, otra razón por la que Positron cree que su hardware fabricado en EE. UU. ofrece una alternativa convincente.
¿Qué sigue?
Agrawal señaló que el silicio de Positron apunta no solo a una amplia compatibilidad, sino también a la máxima utilidad para la empresa, la nube y los laboratorios de investigación por igual.
Si bien la compañía aún no ha nombrado a ningún proveedor de modelos fronterizos como clientes, confirmó que se están llevando a cabo actividades de divulgación y conversaciones.
Agrawal enfatizó que vender infraestructura física basada en la economía y el rendimiento, no agruparla con API o modelos comerciales patentados, es parte de lo que le da credibilidad a Positron en un mercado escéptico.
“Si no puede convencer a un cliente de que implemente su hardware en función de su economía, no será rentable”, dijo.