La IA de DeepSeek completa tareas de “razonamiento” en un instante en chips alternativos de Groq y Cerebras.
por Jason Dorrier
Los campeones no son para siempre. La semana pasada, DeepSeek AI causó escalofríos tanto en inversores como en empresas tecnológicas con su excelente rendimiento a bajo precio. Ahora, dos startups de chips informáticos se benefician de esa misma sensación.
Cerebras Systems fabrica chips informáticos gigantes, del tamaño de platos, con un diseño innovador. Groq, por su parte, fabrica chips diseñados a medida para grandes modelos lingüísticos. En una prueba comparativa, estos chips alternativos han superado con creces a la competencia con una versión de la IA viral de DeepSeek.
Mientras que las respuestas pueden tardar minutos en completarse en otro hardware, Cerebras afirmó que su versión de DeepSeek resolvió algunas tareas de codificación en tan solo 1,5 segundos. Según Artificial Analysis, los chips a escala de oblea de la compañía fueron 57 veces más rápidos que los de la competencia que ejecutan IA en GPU y, sin duda, los más rápidos. Esto ocurrió la semana pasada. Ayer, Groq superó a Cerebras en la cima con una nueva oferta.
En cifras, el avance de DeepSeek es más sutil de lo que parece , pero la tendencia es real. Aunque los laboratorios planean ampliar significativamente los modelos de IA, los propios algoritmos se están volviendo sustancialmente más eficientes. En cuanto al hardware, estos avances están siendo igualados por Nvidia, pero también por startups de chips, como Cerebras y Groq, que pueden superar el rendimiento en inferencia.
Las grandes tecnológicas se han comprometido a comprar más hardware, y Nvidia no se dejará de lado pronto, pero las alternativas pueden empezar a mordisquear los bordes, especialmente si pueden ofrecer modelos de IA más rápido o más barato que las opciones más tradicionales.
Sea razonable
La nueva IA de DeepSeek, R1, es un modelo de razonamiento, como el o1 de OpenAI. Esto significa que, en lugar de generar la primera respuesta, analiza el problema en detalle, reconstruyendo la respuesta paso a paso.
Para una charla informal, esto no hace mucha diferencia, pero para problemas complejos (y valiosos), como la codificación o las matemáticas, es un gran avance.
El R1 de DeepSeek ya es extremadamente eficiente. Esa fue la noticia de la semana pasada.
El R1 no solo fue más barato de entrenar (supuestamente solo 6 millones de dólares, aunque se discute el significado de esta cifra), sino que también es barato de operar, y sus pesos y detalles de ingeniería son públicos. Esto contrasta con los titulares sobre inversiones inminentes en iniciativas de IA propietaria, mayores que el programa Apolo.
La noticia hizo reflexionar a los inversores: quizá la IA no necesite tanto dinero ni tantos chips como creen los líderes tecnológicos. Nvidia, probable beneficiaria de esas inversiones, sufrió un fuerte golpe en la bolsa.
Pequeño, rápido y aún inteligente
Todo esto se refiere al software, donde los algoritmos son cada vez más económicos y eficientes. Pero los chips que entrenan o ejecutan la IA también están mejorando.
El año pasado, Groq, una startup fundada por Jonathan Ross , el ingeniero que desarrolló los chips de IA de Google, fue noticia con chips diseñados a medida para grandes modelos de lenguaje. Mientras que las respuestas de los populares chatbots se reproducían línea por línea en las GPU, las conversaciones en los chips de Groq eran prácticamente en tiempo real .
Eso fue entonces. La nueva generación de modelos de inteligencia artificial de razonamiento tarda mucho más en proporcionar respuestas, por diseño.
Estos modelos, denominados “computación en tiempo de prueba”, generan múltiples respuestas en segundo plano, seleccionan la mejor y ofrecen una justificación. Las empresas afirman que las respuestas mejoran cuanto más tiempo se les permite “pensar”. Estos modelos no superan a los modelos anteriores en todos los aspectos, pero han avanzado en áreas donde los algoritmos antiguos presentan dificultades, como las matemáticas y la programación.
A medida que los modelos de razonamiento se centran en la inferencia (el proceso mediante el cual un modelo de IA finalizado procesa la consulta de un usuario), la velocidad y el coste cobran mayor importancia. Las personas desean respuestas rápidas y no quieren pagar más por ellas. En este aspecto, Nvidia se enfrenta a una creciente competencia.
En este caso, Cerebras, Groq y varios otros proveedores de inferencia decidieron alojar una versión reducida de R1.
En lugar del modelo original de 671 mil millones de parámetros (los parámetros miden el tamaño y la complejidad de un algoritmo), utilizan DeepSeek R1 Llama-70B. Como su nombre indica, el modelo es más pequeño, con solo 70 mil millones de parámetros. Aun así, según Cerebras, aún puede superar al o1-mini de OpenAI en determinados benchmarks.
Análisis Artificial, una plataforma de análisis de IA, realizó comparaciones de rendimiento directas entre varios proveedores de inferencia la semana pasada, y Cerebras obtuvo el primer puesto. Por un coste similar, los chips a escala de oblea generaron unos 1500 tokens por segundo, en comparación con los 536 y 235 de SambaNova y Groq, respectivamente. Como demostración de las mejoras en la eficiencia, Cerebras afirmó que su versión de DeepSeek tardó 1,5 segundos en completar una tarea de codificación que el o1-mini de OpenAI tardó 22 segundos.
Ayer, Artificial Analysis realizó una actualización para incluir una nueva oferta de Groq que superó a Cerebras.
El modelo R1, más pequeño, no puede igualar a los modelos más grandes libra por libra, pero Artificial Analysis señaló que los resultados indican que, por primera vez, los modelos de razonamiento alcanzan velocidades comparables a las de los modelos sin razonamiento.
Además de la velocidad y el costo, las empresas de inferencia también alojan modelos dondequiera que estén ubicadas. DeepSeek alcanzó la cima de la popularidad la semana pasada, pero sus modelos se alojan en servidores en China, y desde entonces los expertos han expresado su preocupación por la seguridad y la privacidad . En su comunicado de prensa , Cerebras se aseguró de mencionar que aloja DeepSeek en EE. UU.
Menos es más
Cualquiera que sea su impacto a largo plazo, la noticia ejemplifica una fuerte tendencia —y vale la pena destacar que ya existe— hacia una mayor eficiencia en la IA.
Desde que OpenAI presentó la versión preliminar de o1 el año pasado, la compañía ha avanzado hacia su siguiente modelo, o3. La semana pasada, Google ofreció a los usuarios una versión reducida de su último modelo, o3-mini. Ayer, Google lanzó versiones de sus propios modelos de razonamiento cuya eficiencia se acerca a R1 . Y dado que los modelos de DeepSeek son abiertos e incluyen un documento detallado sobre su desarrollo, tanto las empresas establecidas como las emergentes adoptarán los avances.
Mientras tanto, los laboratorios de vanguardia siguen comprometidos con el crecimiento . Google, Microsoft, Amazon y Meta invertirán 300 000 millones de dólares este año, principalmente en centros de datos de IA. OpenAI y Softbank han acordado un proyecto de centro de datos de cuatro años y 500 000 millones de dólares llamado Stargate.
Dario Amodei, director ejecutivo de Anthropic, describe esto como un ciclo de tres partes . Los modelos más grandes generan avances en capacidad. Posteriormente, las empresas perfeccionan estos modelos, lo que, entre otras mejoras, ahora incluye el desarrollo de modelos de razonamiento. Los avances de hardware y software, integrados en todo el proceso, hacen que los algoritmos sean más económicos y eficientes.
Esta última tendencia implica que las empresas pueden escalar más con menos en la frontera, mientras que algoritmos más pequeños y ágiles con capacidades avanzadas abren nuevas aplicaciones y demanda en el futuro. Hasta que este proceso se agote —lo cual es un tema de debate— habrá demanda de chips de IA de todo tipo.