Iniciativa Chan Zuckerberg
Los biólogos están dejando de lado la placa de Petri y empleando IA para experimentar in silico.
por Kristin Houser
Estamos en 2040. El descubrimiento de fármacos está en auge gracias a las células virtuales. Estos modelos de células vivas, impulsados por IA, se han convertido en herramientas indispensables en la investigación biomédica, ayudando a los científicos a probar tratamientos in silico antes de que lleguen al laboratorio, ahorrando tiempo, dinero y vidas.
Células virtuales
La inteligencia artificial se está convirtiendo rápidamente en el microscopio más poderoso de la biología.
Los mejores centros de investigación están usando la tecnología para desarrollar células virtuales, simulaciones basadas en IA de los componentes básicos de todas las formas de vida, y es difícil exagerar el impacto que sus modelos podrían tener en el mundo de la salud.
“La visión de que realmente podemos comprender todo sobre una célula, desde su estructura molecular hasta su función, cómo interactúan y operan las células en los organismos vivos y cómo responden y reaccionan a cualquier intervención, contribuirá en gran medida a ayudarnos a curar, prevenir y controlar las enfermedades”, dijo Patricia Brennan, vicepresidenta de Ciencia y Tecnología y directora general de Ciencia de la Iniciativa Chan Zuckerberg (CZI).
Para descubrir cómo llegamos hasta aquí y hacia dónde vamos, el Future Explored de este mes analiza en profundidad las células virtuales: qué son, quién las fabrica y cómo podrían dar forma al futuro de la medicina.
Donde hemos estado

A dónde vamos (tal vez)
La primera célula virtual se construyó hace más de una década, así que ¿por qué está despertando tanto interés ahora? La respuesta reside en las diferencias fundamentales en el funcionamiento de los modelos actuales en comparación con modelos como el que el equipo de Stanford creó en 2012.
Su célula virtual simuló todos los procesos moleculares de Mycoplasma genitalium (Mgen) dividiéndolos en 28 módulos, cada uno gobernado por su propio conjunto de ecuaciones matemáticas y reglas biológicas: un ejemplo simplificado podría ser: “Si se expresa el gen A, se activará el gen B”.
El equipo desarrolló estas instrucciones tras una minuciosa revisión de más de 900 artículos, libros y bases de datos, condensando en 28 algoritmos todo el conocimiento de la comunidad científica sobre el funcionamiento de Mgen. Una vez completado, su modelo podría simular todo el ciclo de vida de Mgen, desde el nacimiento hasta la división, en unas 10 horas, aproximadamente el mismo tiempo que tarda una célula Mgen en dividirse.
El simple hecho de poder observar este proceso era valioso, pero la verdadera utilidad de la célula virtual residía en que los investigadores podían experimentar con ella. Podían eliminar un gen con solo pulsar una tecla en lugar de usar CRISPR y luego ejecutar la simulación para predecir cómo su pérdida afectaría a Mgen. Si observaban algo interesante, podían dedicar tiempo a un experimento de laboratorio.
“Si usas un modelo para guiar tus experimentos, descubrirás cosas más rápido”, dijo el líder del estudio, Markus Covert, en 2012. “Lo hemos demostrado una y otra vez”.
La mayoría de las veces, las predicciones de la célula virtual coincidían con los resultados de los experimentos reales. Cuando no lo hacían, las discrepancias solían estar relacionadas con genes poco comprendidos en la literatura científica. Esto tenía sentido: el modelo estaba limitado por su programación. Si los científicos querían mejorarlo, tendrían que actualizar sus algoritmos.
“Si usas un modelo para guiar tus experimentos, descubrirás cosas más rápido”.
Markus Covert
En los años posteriores al gran avance de Stanford, otros grupos crearon sus propias células virtuales utilizando el mismo método: destilar la literatura conocida en algoritmos basados en reglas.
Sin embargo, las células virtuales actuales se basan en inteligencia artificial, generalmente un tipo específico de modelo llamado transformador. Investigadores de Google propusieron por primera vez esta arquitectura de IA en 2017, y es la base de muchas de las mejores IA generativas actuales, incluyendo ChatGPT.
Las IA basadas en transformadores aprenden a identificar relaciones entre tokens (pequeñas unidades de datos) entrenándose con grandes conjuntos de datos. Una vez entrenadas, pueden generar nuevo contenido prediciendo el siguiente token más probable en una secuencia.
Para ChatGPT, por ejemplo, los tokens son palabras o partes de palabras. El enorme conjunto de datos de entrenamiento era internet, y una vez entrenado, ChatGPT pudo generar texto prediciendo el token más probable que aparecería a continuación en su respuesta, una y otra vez, basándose en los anteriores.
Una de las características más destacables de las IA basadas en transformadores es que pueden generar contenido no incluido en sus datos de entrenamiento. Un generador de imágenes de IA, por ejemplo, puede generar una imagen fotorrealista de un gato hecho de espaguetis, incluso si no se le muestra explícitamente cómo debería verse.

Los investigadores ahora están construyendo células virtuales en la arquitectura del transformador, y los resultados son notables.
El modelo TranscriptFormer de CZI , por ejemplo, se entrenó con conjuntos de datos que contenían imágenes, secuencias de ARN y otros datos biológicos de 112 millones de células. Estos datos se obtuvieron de 12 especies diferentes a lo largo de 1500 millones de años de evolución. Un investigador ahora puede solicitarle datos de una célula que esté estudiando, y la IA puede predecir su tipo celular, estado de infección y más, incluso si la célula proviene de una especie no incluida en los datos de entrenamiento del modelo.
“Simplemente lo entrenamos con variabilidad natural, pero esta variabilidad natural sigue el árbol de la vida: tiene mucha estructura. Están sucediendo muchas cosas interesantes”, dijo Theofanis Karaletsos, director sénior de IA en CZI. “El modelo se vuelve extremadamente rico y eficiente al realizar todo tipo de tareas”.
CZI ofrece ahora a los investigadores acceso anticipado a una plataforma integral que incluye varios modelos celulares virtuales, como TranscriptFormer, y los conjuntos de datos utilizados para entrenarlos. Estos modelos tienen casos de uso específicos ( por ejemplo, el modelo GREmLN de CZI predice la interacción genética), pero la visión es desarrollar modelos que puedan simular un comportamiento celular más complejo.
“De cara al futuro, el objetivo es que los modelos celulares virtuales sirvan como gemelos digitales o sustitutos computacionales de sistemas experimentales”, afirmó Marinka Zitnik, colaboradora de CZI y profesora adjunta en Harvard. “Por ejemplo, una célula virtual validada podría simular el resultado de un fármaco o una intervención genética in silico, lo que podría reducir la necesidad de experimentos con animales o guiar el diseño de estudios de laboratorio”.
“Le preguntas al modelo: ‘¿Qué perturbaciones debo realizar para que esta célula pase de este estado enfermo a este estado sano?’”
David Burke
Arc Institute, una organización sin fines de lucro dedicada a la investigación biomédica, también está desarrollando células virtuales. Recientemente, ha abierto el acceso a su primer modelo, STATE , que se entrenó con datos observacionales de casi 170 millones de células y datos perturbacionales de más de 100 millones. Los datos perturbacionales capturan cómo reacciona una célula cuando su función normal se ve alterada por un fármaco, una modificación genética u otro estímulo externo.
Los investigadores introducen el transcriptoma de una célula (el conjunto completo de genes que se expresan activamente en un momento dado) y una perturbación propuesta, y STATE predice cómo es probable que cambien los patrones de expresión génica de la célula. Esto puede brindar a los científicos una forma de evaluar el impacto potencial de los tratamientos para enfermedades sin necesidad de realizar experimentos.
Al ejecutar este proceso a la inversa, STATE puede incluso indicar a los investigadores intervenciones prometedoras que no habían considerado.
“Se toma una célula que está en un estado enfermo —tal vez con un perfil transcriptómico de enfermedad de Alzheimer— y una en un estado sano, y luego se le pregunta al modelo: ‘¿Qué perturbaciones necesito hacer para mover esta célula de este estado enfermo a este estado sano?’”, dijo David Burke, director de tecnología del Arc Institute.
Según Burke, las predicciones de STATE tienen una precisión del 40 % al 60 %, dependiendo del tipo de perturbación. Cree que un 75 % sería suficiente para que los biólogos pudieran empezar a confiar en las predicciones de la IA sin tener que realizar experimentos en el laboratorio.
“Eso podría parecer un poco bajo”, dijo Burke, “pero cuando se observan todos los diferentes conjuntos de datos de diferentes laboratorios, la concordancia entre ellos es solo del 75%, porque la secuenciación de células individuales y los análisis de perturbaciones son muy ruidosos, así que ese es nuestro objetivo”.

Un modelo de transformador es tan bueno como la calidad y cantidad de sus datos de entrenamiento, por lo que si queremos mejorar las células virtuales actuales, necesitaremos mejorar nuestros conjuntos de datos.
“Si bien la escala de los conjuntos de datos ha ido creciendo en los últimos años, necesitaremos muchos más datos”, dijo Brennan de CZI, quien señaló que muchos de los datos que ya tenemos no fueron necesariamente recopilados con el entrenamiento de células virtuales en mente, lo que complica su uso como material de entrenamiento.
Para ayudar a cerrar la brecha de datos lo antes posible, CZI lanzó en febrero el Proyecto Mil Millones de Células (BCP), un proyecto de código abierto . El objetivo de la iniciativa es generar de forma rápida y rentable un conjunto de datos públicos que contenga mil millones de células mediante colaboraciones con científicos y desarrolladores de tecnologías de análisis celular de vanguardia.
“Los procesos tradicionales de generación de datos pueden tardar entre tres y cuatro años, mientras que BCP está reduciendo ese plazo a meses”, dijo Bailey Marshall, asociado sénior del programa de biología de células individuales en CZI.
“Una de las innovaciones más importantes del proyecto reside en la interoperabilidad”, añadió. “Al alinear desde el principio kits, protocolos y tecnologías estandarizados en todo el BCP, se pueden integrar fácilmente datos de diversos tejidos, especies y modalidades. Esto permite a los investigadores y desarrolladores de IA entrenar modelos consistentes, reproducibles y de amplia aplicación”.
¿Hasta dónde podemos llegar? Es una pregunta científica abierta.
David Burke
Así pues, a corto plazo, la comunidad científica sabe que necesita más datos para hacer más robustas sus células virtuales, pero aún se desconoce hasta qué punto podrá mejorarlas.
Con suficientes datos de alta calidad, ¿es posible crear un modelo único que prediga con precisión todo lo que sucederá en una célula cuando se vea sometida a todas las perturbaciones posibles? ¿Qué tal un modelo que considere cómo funcionan las células en contexto? ¿Podemos crear modelos virtuales de tejidos, órganos o incluso cuerpos enteros?
De ser así, marcaría un punto de inflexión en la biología: pasar de una ciencia que observa la vida a una que puede simularla y predecirla. Las consecuencias para la medicina, la longevidad y nuestra comprensión de la salud serían transformadoras.
“¿Hasta dónde podemos llegar? Esa es una pregunta científica abierta”, dijo Burke.