Los modelos de IA ineficientes consumen mucha energía, al igual que los eficientes, pero por motivos diferentes.

por Vanessa Bates Ramírez


DeepSeek ha revolucionado la industria de la IA, desde los chips y el dinero necesarios para entrenar y ejecutar la IA hasta la energía que se espera que consuma en un futuro no muy lejano. Las acciones de energía se dispararon en 2024 ante las predicciones de un crecimiento espectacular de la demanda de electricidad para alimentar los centros de datos de IA , y las acciones de las empresas de generación de energía Constellation Energy y Vistra alcanzaron máximos históricos.

Y eso no fue todo. En uno de los acuerdos más importantes en la historia de la industria energética estadounidense, Constellation adquirió el productor de gas natural Calpine Energy por 16.400 millones de dólares , asumiendo que la demanda de gas crecería como fuente de generación para la IA. Mientras tanto, la energía nuclear parecía estar lista para un renacimiento. Google firmó un acuerdo con Kairos Power para comprar energía nuclear producida por pequeños reactores modulares (SMR). Por otra parte, Amazon hizo acuerdos con tres desarrolladores de SMR diferentes, y Microsoft y Constellation anunciaron que reiniciarían un reactor en Three Mile Island.

Mientras este frenesí por conseguir una fuente de energía fiable iba en aumento, apareció el modelo R1 de DeepSeek y, sin contemplaciones, irrumpió en la fiesta. Sus creadores afirman que entrenaron el modelo utilizando una fracción del hardware y la potencia informática de sus predecesores. Las acciones de energía se desplomaron y las ondas de choque resonaron en las comunidades de energía e inteligencia artificial, ya que de repente parecía que todo ese esfuerzo por conseguir nuevas fuentes de energía había sido en vano.

Pero ¿era justificada una sacudida tan drástica del mercado? ¿Qué significa realmente DeepSeek para el futuro de la demanda energética?

En este punto, es demasiado pronto para sacar conclusiones definitivas. Sin embargo, varias señales sugieren que la respuesta instintiva del mercado a DeepSeek fue más una reacción que un indicador preciso de cómo afectará R1 a la demanda de energía.

Entrenamiento vs. Inferencia

DeepSeek afirmó que gastó solo 6 millones de dólares para entrenar su modelo R1 y utilizó menos chips (y menos sofisticados) que otros similares de OpenAI. Ha habido mucho debate sobre qué significan exactamente estas cifras. El modelo parece incluir mejoras reales, pero los costos asociados pueden ser más altos que los revelados.

Aun así, los avances del R1 fueron suficientes para sacudir los mercados. Para entender por qué, vale la pena analizar un poco los detalles.

En primer lugar, es importante señalar que entrenar un modelo de lenguaje grande es completamente diferente a usar ese mismo modelo para responder preguntas o generar contenido. Inicialmente, entrenar una IA es el proceso de alimentarla con cantidades masivas de datos que usa para aprender patrones, establecer conexiones y establecer relaciones. Esto se llama preentrenamiento. En el posentrenamiento, se utilizan más datos y comentarios para ajustar el modelo, a menudo con la participación de humanos.

Una vez que se ha entrenado un modelo, se puede poner a prueba. Esta fase se denomina inferencia y es cuando la IA responde preguntas, resuelve problemas o escribe texto o código en función de una indicación.

Tradicionalmente, con los modelos de IA, se destina una gran cantidad de recursos a entrenarlos por adelantado, pero relativamente menos recursos a ejecutarlos (al menos en función de cada consulta). DeepSeek encontró formas de entrenar su modelo de manera mucho más eficiente, tanto antes como después del entrenamiento. Los avances incluyeron ingeniosos trucos de ingeniería y nuevas técnicas de entrenamiento (como la automatización de la retroalimentación de refuerzo que generalmente manejan las personas) que impresionaron a los expertos. Esto llevó a muchos a preguntarse si las empresas realmente necesitarían gastar tanto dinero en la construcción de enormes centros de datos que consumirían energía.

Razonar es costoso

DeepSeek es un nuevo tipo de modelo llamado modelo de “razonamiento”. Los modelos de razonamiento comienzan con un modelo previamente entrenado, como GPT-4, y reciben más entrenamiento donde aprenden a emplear el “razonamiento en cadena de pensamientos” para dividir una tarea en varios pasos. Durante la inferencia, prueban diferentes fórmulas para obtener una respuesta correcta, reconocen cuándo cometen un error y mejoran sus resultados. Es un poco más parecido a cómo piensan los humanos, y requiere mucho más tiempo y energía.

En el pasado, el entrenamiento utilizaba la mayor potencia de procesamiento y, por lo tanto, la mayor cantidad de energía, ya que implicaba procesar conjuntos de datos enormes. Pero una vez que un modelo entrenado alcanzaba la inferencia, simplemente aplicaba sus patrones aprendidos a nuevos puntos de datos, lo que no requería tanta potencia de procesamiento (relativamente).

Hasta cierto punto, el R1 de DeepSeek invierte esta ecuación. La empresa hizo que el entrenamiento fuera más eficiente, pero la forma en que resuelve las consultas y responde a las indicaciones consume más energía que los modelos anteriores. Una comparación directa descubrió que DeepSeek utilizó un 87 por ciento más de energía que el Llama 3.3 de Meta, que no razona, para responder al mismo conjunto de indicaciones. Además, OpenAI, cuyo modelo o1 fue el primero en incorporar capacidades de razonamiento, descubrió que permitir que estos modelos tuvieran más tiempo para “pensar” da como resultado mejores respuestas.

Aunque los modelos de razonamiento no son necesariamente mejores para todo (son excelentes en matemáticas y programación, por ejemplo), su auge puede catalizar un cambio hacia usos que consuman más energía. Incluso si los modelos de entrenamiento se vuelven más eficientes, el cálculo adicional durante la inferencia puede anular algunas de las ganancias.

Suponer que una mayor eficiencia en la capacitación se traducirá en un menor consumo de energía puede que tampoco sea así. Contrariamente a la intuición, una mayor eficiencia y un ahorro de costes en la capacitación pueden significar simplemente que las empresas amplíen sus operaciones durante esa fase y utilicen la misma cantidad (o más) de energía para obtener mejores resultados.

“Las ganancias en eficiencia de costos terminan dedicándose enteramente al entrenamiento de modelos más inteligentes, limitados únicamente por los recursos financieros de la empresa”, escribió el cofundador de Anthropic, Dario Amodei, de DeepSeek .

Si cuesta menos, usamos más

El director ejecutivo de Microsoft, Satya Nadella, también mencionó esta tendencia, conocida como la paradoja de Jevons (la idea de que una mayor eficiencia conduce a un mayor uso de un recurso, lo que en última instancia anula la ganancia de eficiencia) en respuesta a la pelea por DeepSeek.

Si su nuevo automóvil consume la mitad de gasolina por milla que su automóvil anterior, no va a comprar menos gasolina, sino que va a emprender ese viaje por carretera en el que ha estado pensando y también va a planificar otro viaje por carretera.

El mismo principio se aplicará en la IA. Si bien los modelos de razonamiento consumen relativamente mucha energía ahora, es probable que no lo hagan para siempre. Los modelos de IA más antiguos son mucho más eficientes hoy que cuando se lanzaron por primera vez. Veremos la misma tendencia con los modelos de razonamiento: aunque consumirán más energía en el corto plazo, a largo plazo serán más eficientes. Esto significa que es probable que en ambos marcos temporales utilicen más energía, no menos. Los modelos ineficientes consumirán primero el exceso de energía, luego proliferarán los modelos cada vez más eficientes y se utilizarán en una medida mucho mayor más adelante.

Como Nadella publicó en X : “A medida que la IA se vuelva más eficiente y accesible, veremos que su uso se disparará, convirtiéndola en un producto del que simplemente no podemos tener suficiente”.

Si lo construyes

En vista de la caída del micrófono R1 de DeepSeek, ¿deberían las empresas tecnológicas estadounidenses dar marcha atrás en sus esfuerzos por aumentar el suministro de energía? ¿Cancelar esos contratos para reactores nucleares modulares pequeños?

En 2023, los centros de datos representaron el 4,4 por ciento del consumo total de electricidad de Estados Unidos. Un informe publicado en diciembre, antes del lanzamiento de R1, predijo que esa cifra podría aumentar hasta el 12 por ciento para 2028. Ese porcentaje podría reducirse debido a las mejoras en la eficiencia del entrenamiento que aportará DeepSeek, que se implementarán ampliamente.

Pero dada la probable proliferación de modelos de razonamiento y la energía que utilizan para la inferencia (sin mencionar los posteriores aumentos de la demanda impulsados ​​por la eficiencia), apuesto a que los centros de datos alcanzarán ese 12 por ciento, tal como predijeron los analistas antes de haber oído hablar de DeepSeek.

Las empresas tecnológicas parecen estar en la misma sintonía . En recientes presentaciones de resultados, Google, Microsoft, Amazon y Meta anunciaron que gastarían 300.000 millones de dólares (principalmente en infraestructura de IA) solo este año. Todavía hay mucho dinero y energía en la IA.

Vanessa Bates Ramírez

Vanessa Bates Ramírez

Vanessa ha escrito sobre ciencia y tecnología durante ocho años y fue editora senior en Singularity Hub. Le interesan la biotecnología y la ingeniería genética, los detalles de la transición a las energías renovables, el papel que desempeñan la tecnología y la ciencia en la geopolítica y el desarrollo internacional, y muchos otros temas.

Fuente: https://singularityhub.com/2025/02/13/deepseek-crashed-energy-stocks-heres-why-it-shouldnt-have/

Deja una respuesta