por Shelly Fan
Los científicos de DeepMind y la Universidad de Washington describen métodos basados en el aprendizaje profundo para resolver plegamiento de proteínas, la última etapa de ejecución de la programación en nuestro ADN.
Las proteínas son los secuaces de la vida. Forman nuestros cuerpos, alimentan nuestro metabolismo y son el objetivo de la mayor parte de la medicina actual. Comienzan como una simple cinta, traducida del ADN y, posteriormente, se pliegan en intrincadas arquitecturas tridimensionales. Al igual que los Transformers, muchas unidades de proteínas se ensamblan en complejos masivos y móviles que cambian su estructura según sus necesidades funcionales en el momento.
Las proteínas mal plegadas pueden ser devastadoras y causar problemas de salud desde la anemia de células falciformes hasta el cáncer y la enfermedad de Alzheimer . Uno de los mayores desafíos de la biología durante los últimos 50 años ha sido descifrar cómo una estructura simple en forma de cinta unidimensional se convierte en formas tridimensionales, equipadas con cañones, crestas, valles y cuevas. Es como si un extraterrestre estuviera leyendo las coordenadas de cientos de ubicaciones en un mapa del Gran Cañón en un cuaderno y reconstruyéndolo en un holograma 3D de la cosa real, sin siquiera verlo o saber cómo debería verse.
Si. Es dificil. “Mucha gente se ha roto la cabeza”, dijo el Dr. John Moult de la Universidad de Maryland.
No es solo un ejercicio académico. La resolución del genoma humano allanó el camino para la terapia génica, los avances en el cáncer CAR-T y la infame herramienta de edición de genes CRISPR . Descifrar el plegamiento de proteínas está destinado a iluminar un panorama biológico completamente nuevo que no hemos podido estudiar o manipular. El rápido y furioso desarrollo de las vacunas Covid-19 se basó en que los científicos analizaran múltiples objetivos proteicos del virus, incluidas las proteínas de pico a las que se dirigen las vacunas. Muchas proteínas que conducen al cáncer hasta ahora han estado fuera del alcance de los medicamentos porque su estructura es difícil de precisar.
Con estas nuevas herramientas de inteligencia artificial , los científicos podrían resolver inquietantes misterios médicos mientras se preparan para abordar los aún desconocidos. Establece el escenario para comprender mejor nuestra biología, informar sobre nuevos medicamentos e incluso inspirar la biología sintética en el futuro.
“Lo que el equipo de DeepMind ha logrado es fantástico y cambiará el futuro de la biología estructural y la investigación de proteínas”, dijo la Dra. Janet Thornton, directora emérita del Instituto Europeo de Bioinformática.
“Nunca pensé que vería esto en mi vida”, agregó Moult.
Nacimiento de una proteína
Imagina la vida como un videojuego. Si el ADN es el código base de fondo, entonces las proteínas son su ejecución, el juego real al que juegas. Cualquier error en el ADN podría provocar un bloqueo en el programa, pero también podría ser benigno y permitir que el juego se ejecute como de costumbre. En otras palabras, la mayoría de la medicina moderna, como los jugadores, solo se preocupa por el juego final, las proteínas, en lugar del código fuente que conduce a él, a menos que algo salga mal. Desde medicamentos para la diabetes hasta antidepresivos y senolíticos que potencialmente prolongan la vida , todos estos medicamentos actúan adhiriéndose a las proteínas en lugar del ADN.
Es por eso que descifrar la estructura de las proteínas es tan importante: como la llave de una cerradura, un medicamento solo puede acoplarse a una proteína en puntos específicos. De manera similar, las proteínas a menudo forman un equipo al unirse en un complejo para ejecutar las funciones de su cuerpo, por ejemplo, formar una memoria o desencadenar un ataque inmunológico contra un virus.
Las proteínas están formadas por bloques de construcción llamados aminoácidos, que a su vez están programados por el ADN. Al igual que la piedra de Rosetta, nuestras células pueden traducir fácilmente el código de ADN en bloques de construcción de proteínas dentro de una estructura similar a una concha de almeja, que escupe una cadena de aminoácidos unidimensionales. Estas cintas luego se mezclan a través de una infraestructura celular completa que permite que la proteína se pliegue en su estructura final.
En la década de 1970, el Dr. Christian Anfinsen, ganador del Premio Nobel, afirmó que la secuencia unidimensional en sí misma puede predecir computacionalmente la estructura 3D de una proteína. El problema es el tiempo y el poder: como intentar piratear una contraseña con cientos de caracteres suspendidos en el espacio 3D, las posibles soluciones son astronómicas.
Pero ahora tenemos una herramienta que supera a los humanos en la búsqueda de patrones: el aprendizaje automático.
Ingrese AI
En 2020, DeepMind sorprendió a todo el campo con su entrada en una competencia bienal heredada. Apodada CASP (Evaluación crítica de la predicción de la estructura de la proteína), la prueba de décadas utiliza métodos de laboratorio tradicionales para determinar la estructura de la proteína como base para juzgar los algoritmos de predicción.
La línea de base es difícil de conseguir. Se basa en laboriosas técnicas experimentales que pueden llevar meses o incluso años. Estos métodos a menudo “congelan” una proteína y mapean su estructura interna hasta el nivel atómico usando rayos X. Muchas proteínas no pueden tratarse de esta manera sin perder su estructura natural, pero el método es el mejor que tenemos actualmente. Luego, las predicciones se comparan con este estándar de oro para juzgar el algoritmo subyacente.
El año pasado, DeepMind sorprendió a todos con su IA, lo que hizo desaparecer a otros competidores. En ese momento, fueron una broma, revelando pequeños detalles sobre su método ” increíblemente emocionante ” que coincidía con los resultados experimentales en precisión. Pero la presentación de 30 minutos inspiró a la Dra. Minkyung Baek de la Universidad de Washington a desarrollar su propio enfoque.
Baek utilizó una estrategia de aprendizaje profundo similar, descrita en un artículo publicado en Science esta semana. La herramienta, RoseTTAFold, considera simultáneamente tres niveles de patrones. El primero examina los componentes básicos de los aminoácidos de una proteína y los compara con todas las demás secuencias de una base de datos de proteínas.
A continuación, la herramienta examina cómo interactúan los aminoácidos de una proteína con otra dentro de la misma proteína, por ejemplo, examinando la distancia entre dos bloques de construcción distantes. Es como mirar tus manos y pies completamente estirados en lugar de hacer una flexión hacia atrás, y medir la distancia entre esas extremidades mientras te “doblas” en una pose de yoga.
Finalmente, la tercera pista analiza las coordenadas 3D de cada átomo que forma un bloque de construcción de proteínas, algo así como mapear los postes en un bloque de Lego, para compilar la estructura 3D final. La red luego rebota de un lado a otro entre estas pistas, de modo que una salida pueda actualizar otra pista.
Los resultados finales se acercaron a los de la herramienta de DeepMind, AlphaFold2, que coincidió con el estándar de oro de las estructuras obtenidas de los experimentos. Aunque RoseTTAFold no era tan preciso como AlphaFold2, aparentemente requería mucho menos tiempo y energía. Para una proteína simple, el algoritmo pudo resolver la estructura usando una computadora para juegos en aproximadamente 10 minutos.
RoseTTAFold también fue capaz de abordar el problema del “ensamblaje de proteínas”, ya que podía predecir la estructura de las proteínas, compuestas por múltiples unidades, simplemente mirando la secuencia de aminoácidos. Por ejemplo, pudieron predecir cómo la estructura de una molécula inmune se fija en su objetivo. Muchas funciones biológicas dependen de estos apretones de manos entre proteínas. Ser capaz de predecirlos mediante un algoritmo abre la puerta a la manipulación de procesos biológicos (sistema inmunológico, accidente cerebrovascular, cáncer, función cerebral) a los que antes no podíamos acceder.
Hackear el cuerpo
Desde el lanzamiento público de RoseTTAFold en julio, se ha descargado cientos de veces, lo que permite a otros investigadores responder a sus desconcertantes preguntas sobre la secuencia de proteínas, lo que puede ahorrar años de trabajo y mejorar colectivamente el algoritmo.
“Cuando hay un avance como este, dos años después, todos lo están haciendo tan bien, si no mejor, que antes”, dijo Moult.
Mientras tanto, DeepMind también está lanzando su código AlphaFold2, el que inspiró a Baek.
En un nuevo artículo publicado en Nature , el equipo de DeepMind describió su enfoque del misterio de 50 años. El quid fue integrar múltiples fuentes de información — la evolución de una proteína y sus limitaciones físicas y geométricas — para construir un sistema de dos pasos que mapee una proteína dada con una precisión asombrosamente alta.
Presentado por primera vez en la reunión de CASP, el Dr. Demis Hassabis, fundador y CEO de DeepMind, está listo para compartir el código con el mundo. “Nos comprometimos a compartir nuestros métodos y brindar un acceso amplio y gratuito a la comunidad científica. Hoy damos el primer paso para cumplir con ese compromiso compartiendo el código de fuente abierta de AlphaFold y publicando la metodología completa del sistema “, escribió, y agregó que” estamos emocionados de ver qué otras nuevas vías de investigación permitirá a la comunidad. . “
Con los dos estudios, estamos entrando en un nuevo mundo de predicción, y posteriormente de ingeniería o cambio, los componentes básicos de la vida. El Dr. Andrei Lupas, biólogo evolutivo del Instituto Max Planck de Biología del Desarrollo y juez del CASP, está de acuerdo : “Esto cambiará la medicina. Cambiará la investigación ”, dijo. “Cambiará la bioingeniería. Lo cambiará todo “.
Crédito de la imagen: Ian Haydon, Instituto de Diseño de Proteínas de la Universidad de Washington