Por qué un modelo de IA relativamente desconocido desarrollado en China ha revolucionado la industria de la IA.
por Emanuel Maiberg

DeepSeek, un modelo de inteligencia artificial relativamente desconocido desarrollado en China, es ahora la aplicación más popular en la App Store de Apple en Estados Unidos, debido a la publicidad asociada con el lanzamiento de un modelo de inteligencia artificial que supera a los modelos de OpenAI y otras empresas en algunos puntos de referencia, al tiempo que se entrena en chips más antiguos a un costo mucho menor. Esto ha provocado que las acciones de Nvidia, que se ha convertido en una de las empresas más valiosas de la historia gracias al auge de la inteligencia artificial, se desplomen y está provocando un pánico más generalizado en el mercado estadounidense. Marc Andreessen ha llamado a esto “el momento Sputnik de la inteligencia artificial”, en referencia al primer satélite ruso que se adelantó y aceleró el programa espacial estadounidense.
La gente que trabaja en el sector de la IA y quienes lo siguen de cerca empezaron a asustarse cuando se lanzó el modelo más nuevo de DeepSeek, DeepSeek R1, la semana pasada, y ese pánico ahora parece haberse apoderado del mundo entero, impactando en el mercado de valores, haciendo que la gente se pregunte si las empresas estadounidenses como OpenAI y Nvidia pueden realmente dominar la industria de la IA, si la burbuja de la IA finalmente está estallando y si esto es una señal de la inminente dominación mundial y censura china. DeepSeek es particularmente notable porque es gratuito, modificable y menos costoso de ejecutar, lo que tiene a los expertos preocupados por la viabilidad de los productos de suscripción de OpenAI, que ya no son rentables.
Voy a ser sincero con ustedes aquí y decir que 404 Media no proporciona ningún asesoramiento financiero y que si tuviera respuestas definitivas a cualquiera de estas preguntas, estaría jugando en el mercado de valores en lugar de escribir en blogs, pero en un día en el que las tomas van a venir rápido y furiosamente, mi opinión es esta: la industria de la IA continúa desarrollándose muy rápido, es difícil extrapolar cómo se desarrollará todo basándose en un solo evento, incluso si es monumental, y el hecho de que DeepSeek venga de China, un adversario percibido de los Estados Unidos/Occidente, está haciendo que los halcones y xenófobos y los tanques expresen espuma por la boca.
Respiremos profundamente y comencemos con el titular más importante, que es que las acciones de Nvidia cayeron más del 12 por ciento esta mañana temprano , su peor desempeño desde 2020. El fabricante de GPU Nvidia se convirtió en una empresa de un billón de dólares porque está fabricando en gran medida los chips que impulsan el auge de la IA generativa. Estos no son solo los chips que las personas necesitan para generar texto, imágenes, audio, etc. localmente en sus máquinas, sino los clústeres de entrenamiento masivos de miles de chips en los que se entrenan estos modelos fundamentales. En julio, por ejemplo, Elon Musk anunció con orgullo que xAI comenzó a entrenar “el clúster de entrenamiento de IA más poderoso del mundo”, compuesto por 100.000 Nvidia H100.
En su mayor parte, las empresas de IA en los EE. UU. han competido sobre la idea general de que más datos y más computación crean modelos y herramientas de IA más avanzados y más “inteligentes”. Por lo tanto, una de las estrategias generales ha sido que empresas como OpenAI, Google y Meta alimenten cada vez más datos a sus modelos y compitan para construir centros de datos increíblemente caros y que consumen muchos recursos. Pero el año pasado, comenzamos a ver algunas dudas sobre el consenso existente sobre las leyes de escalamiento de la IA, que hasta hace poco mostraban que el rendimiento de los modelos de IA mejoraba a medida que aumentaba el tamaño del modelo, los datos y la computación, y algunas personas, incluido el cofundador de Open AI, Ilya Sutskever, y Andreessen, dicen que las empresas de IA están comenzando a ver rendimientos decrecientes. A pesar de que surgieron estas dudas, las empresas de IA todavía competían por la computación, lo que en gran medida significa acceso a los chips de Nvidia. Musk quiere hacer crecer el clúster de xAI a un millón de GPU eventualmente, y el CEO de Broadcom dijo recientemente que predice que otras empresas intentarán construir clústeres gigantescos similares .
Esta demanda de hardware altamente especializado y difícil de producir ha hecho que Nvidia sea increíblemente valiosa y de importancia crítica para el desarrollo de la IA. Debido a que el gobierno de Estados Unidos cree que Estados Unidos, no China, debe ser el líder mundial en IA, también es la razón por la que ha introducido restricciones a la exportación que prohíben a Nvidia vender sus chips más avanzados a empresas chinas . Esta es parte de la razón por la que vemos a OpenAI, Oracle y SoftBank proponiendo invertir 500 mil millones de dólares en proyectos como Stargate , un proyecto masivo de infraestructura de datos de IA para el que pueden o no tener el dinero.
La razón principal por la que la gente está emocionada/asustada/vomitando en este momento es que DeepSeek fue desarrollado y lanzado bajo las restricciones de exportación de Estados Unidos que impiden a las empresas chinas obtener los últimos y más potentes chips de Nvidia. Como explicó Wired , DeepSeek surgió de High-Flyer, un fondo de cobertura chino que originalmente adquirió GPU para analizar datos financieros, antes de invertir su dinero y recursos en el desarrollo de IA. El hecho de que un nuevo jugador en este espacio haya sido capaz de construir un modelo de IA sin acceso a los últimos y mejores chips de Nvidia ( aunque la gente en China ha encontrado formas de obtenerlos a pesar de las restricciones), utilizando nuevas estrategias de aprendizaje de refuerzo más eficientes, ha socavado la idea de que empresas como Nvidia u OpenAI han construido un “foso” alrededor de sus empresas que asegurará su liderazgo en la carrera de la IA para siempre y, por extensión, ha socavado la noción de la supremacía mundial de la IA estadounidense. También plantea al menos la posibilidad de que una empresa china haya encontrado una forma mejor, más eficiente y más barata de entrenar modelos de IA que cualquier empresa estadounidense haya descubierto hasta ahora.
Como otros han señalado , es difícil decir exactamente cuánto gastó DeepSeek en crear su modelo sin confiar ciegamente en él. El costo real puede estar oculto de maneras que no entendemos, y definitivamente se beneficia al construir sobre la base de la investigación muy costosa (principalmente de empresas estadounidenses) que lo precedió. Pero si las empresas de IA pueden construir modelos competitivos a una fracción del costo en una cantidad comparativamente pequeña de GPU menores, entonces gran parte del valor de Nvidia y los miles de millones de dólares que las empresas de IA están quemando en entrenamiento de repente parecen excesivos y derrochadores (incluso para los impulsores de la IA), de ahí la caída de las acciones.
¿Significa esto que Nvidia, OpenAI y otras empresas de IA están condenadas? Una vez más, no se trata de un consejo financiero, pero el mercado parece estar convulsionando en función de las vibraciones, y definitivamente antes de que tengamos una gran comprensión del impacto de DeepSeek. La refutación más obvia de los poseedores de bolsas de Nvidia en esta situación es que las nuevas eficiencias de DeepSeek solo beneficiarán a los incumbentes de IA. Si estos nuevos métodos le dan a DeepSeek excelentes resultados con un cómputo limitado, los mismos métodos le darán a OpenAI y a otras empresas de IA con más recursos resultados aún mejores en sus enormes clústeres de entrenamiento, y es posible que las empresas estadounidenses se adapten a estos nuevos métodos muy rápidamente. Incluso si las leyes de escalamiento realmente han tocado techo y los clústeres de entrenamiento gigantes no necesitan ser tan gigantes, no veo ninguna razón por la que otras empresas no puedan ser competitivas bajo este nuevo paradigma. Probablemente también deberíamos esperar que este sea el caso, ya que podría reducir el impacto ambiental de la IA.
No tengo ningún interés en esta pelea, pero el argumento que añadiría aquí es que este tipo de saltos parece totalmente normal, y hemos visto variaciones de ello en los últimos dos años. A la gente le encanta bailar prematuramente sobre la tumba de OpenAI cada vez que se lanza un nuevo y brillante modelo. Llama de Meta, Mistral de Francia y Claude de Anthropic han parecido estar avanzando en un momento u otro y son los favoritos de diferentes usuarios para diferentes usos, solo para que OpenAI u otra empresa lance otro modelo que se adelanta a la nueva tecnología de moda y los haga parecer viejos.
La diferencia es que DeepSeek es de China y que a mucha gente, incluido el gobierno de Estados Unidos, no le gusta la idea de que China sea dominante en ningún ámbito, y mucho menos en uno tan supuestamente trascendental como la inteligencia artificial. Esto es obvio dada la histeria en las redes sociales en este momento, los mercados y la forma en que la gente habla sobre la censura de DeepSeek y la posibilidad de que pueda estar vinculada a la vigilancia china o al gobierno chino de alguna manera. Steven Heidel, que trabaja en OpenAI, tuiteó el domingo “a los estadounidenses les encanta regalar sus datos al PCCh a cambio de cosas gratis”, lo que se ha vuelto viral y ha servido como base para el debate sobre DeepSeek como posible software de vigilancia, el “nuevo TikTok”, etc. Lo que es particularmente notable aquí es que DeepSeek se ha lanzado de una manera que puede ejecutarse localmente sin una conexión a Internet.
En varios subreddits de IA, donde DeepSeek es el único tema de conversación desde hace días, algunos usuarios sugieren que la conversación está siendo manipulada por la ” propaganda ” de algunas cuentas. La gente ha compartido repetidamente capturas de pantalla en las redes sociales de DeepSeek negándose a responder preguntas sobre la Plaza de Tiananmen y otros temas sujetos a censura en China, con la implicación de que este es el ecosistema de información en el que viviríamos si China dominara la carrera de la IA.
Supongo que es justo, pero como los desarrolladores de modelos de IA “sin censura” han estado gritando a los cuatro vientos desde el principio : cualquier modelo de IA que el usuario no pueda controlar por completo está sujeto a censura. OpenAI es una persona mojigata y se negará a interactuar con los usuarios en muchos temas, a veces por razones establecidas en la política de OpenAI y, a veces, por razones que nunca entenderemos porque OpenAI es una caja negra.
“¿Por qué la IA de código abierto que se ejecuta en mi computadora debería decidir por sí misma cuándo quiere responder a mi pregunta? Esto es una cuestión de propiedad y control. Si le hago una pregunta a mi modelo, quiero una respuesta, no quiero que discuta conmigo”, me dijo el año pasado Eric Hartford, un desarrollador de modelos de IA sin censura .
En todo caso, DeepSeek proyecta un mejor futuro de inteligencia artificial para aquellos preocupados por la censura porque fue publicado como un modelo de “pesos abiertos”, lo que significa que la gente podría modificarlo para hablar sobre la Plaza de Tiananmen y cualquier otra cosa que quisieran.
No sabemos cómo terminará todo esto, pero el lanzamiento de DeepSeek parece ser un momento decisivo para la industria de la IA y, sin duda, se utilizará, con razón o sin ella, como arma política para destacar la urgencia de la competencia por la supremacía de la IA entre Estados Unidos y China.
Acerca del autor
A Emanuel Maiberg le interesan las comunidades y los procesos poco conocidos que influyen en la tecnología, los alborotadores y las pequeñas disputas.
Fuente: https://www.404media.co/deepseek-mania-shakes-ai-industry-to-its-core/
