En un sendero alpino sobre Malles Venosta, Italia, Teo Valentino, estudiante de doctorado en biología de la Universidad de Neuchâtel, Suiza, capturó una polilla atraída por una trampa de luz. Se enviaron muestras de la polilla a Cambridgeshire, Inglaterra, para secuenciar su genoma. Esta secuencia se añadirá a una base de datos del Proyecto BioGenoma de la Tierra, cuyo objetivo es secuenciar el genoma de todas las especies de plantas, animales, hongos y muchos otros organismos. Luigi Avantaggiato

El Proyecto BioGenoma de la Tierra es un éxito de taquilla en bioinformática

por Glenn Zorpette

En un solitario sendero de montaña en los Alpes italianos, sobre el pueblo de Malles Venosta, cuyas luces salpican el valle, Benjamin Wiesmair se encuentra junto a una trampa para polillas tan alta como él, con el rostro, la barba espesa y el moño iluminados por su resplandor púrpura. Lleva una linterna frontal, un reloj inteligente polvoriento y desgastado, pantalones cortos cargo y un suéter azul con cremallera y las mangas subidas. Innumerables polillas revolotean frenéticamente alrededor de los paneles blancos y diáfanos de la trampa, que se mecen con ondas fantasmales con la suave brisa. Wiesmair entrecierra los ojos al mirar su teléfono inteligente, que está conectado a una base de datos de especies de polillas europeas.

Chersotis multangula ”, dice.

“Sí, lo necesitamos”, llega la seca respuesta de Clara Spilker , mientras consulta una computadora portátil.

Este artículo es parte de The Scale Issue .

Wiesmair, entomólogo de los Museos Estatales del Tirol en Innsbruck, Austria, y Spilker, asistente técnico del Instituto Entomológico Alemán Senckenberg en Müncheberg, participan en una de las iniciativas biológicas de mayor alcance jamás realizadas: obtener la secuencia genómica de casi todas las especies de organismos eucariotas del planeta. Los 1,8 millones de ellas. Los investigadores forman parte de una expedición del Proyecto Psyche , que está tomando muestras de mariposas y polillas europeas y alimentará con sus datos la iniciativa global, denominada Proyecto BioGenoma de la Tierra (EBP).

Tres personas se sientan en el césped por la noche junto a una trampa de luz utilizada para atrapar polillas.

El entomólogo Benjamin Wiesmair [a la derecha] consulta con su teléfono inteligente una base de datos de lepidópteros para identificar las especies de polillas capturadas durante una sesión de trampeo en un sendero alpino sobre Malles Venosta, Italia. Clara Spilker y Alena Sucháčková [en el centro] consultan una tabla para determinar si las especies son necesarias para la secuenciación genómica. Luigi Avantaggiato

Los eucariotas son organismos cuyas células contienen un núcleo. Desde los protozoos hasta los seres humanos, todos comparten el mismo mecanismo biológico básico para construir, mantener y propagar su forma de vida: un genoma. Es la suma total de los genes que porta la criatura.

Hace veintidós años, investigadores anunciaron que, por primera vez, habían mapeado o secuenciado casi todos los genes del genoma humano . El proyecto costó más de 3000 millones de dólares y duró 13 años, pero finalmente transformó la práctica médica. En la nueva era de la medicina genómica , los médicos pueden considerar la composición genética específica de cada paciente durante el diagnóstico y el tratamiento.

Las polillas se adhieren a una tela vaporosa frente a una luz ultravioleta.

Muchas polillas, atraídas por las luces ultravioleta, fueron capturadas durante una excursión de captura de luz cerca de Malles Venosta, Italia. Luigi Avantaggiato

El EBP aspira a alcanzar su ambicioso objetivo para 2035. En julio de 2024, su recuento de genomas secuenciados ascendía a aproximadamente 4200. El éxito dependerá, sin duda, de la capacidad de los investigadores para escalar diversas tecnologías biotecnológicas.

“Necesitamos escalar, desde donde estamos, más de cien veces en términos de la cantidad de genomas por año que estamos produciendo en todo el mundo”, dice Harris Lewin , quien dirige el EBP y es profesor e investigador en genética en la Universidad Estatal de Arizona .

Una de las tecnologías más cruciales que se deben escalar es una técnica llamada secuenciación genómica de lectura larga . Los especialistas en las primeras líneas de la revolución genómica en biología confían en que tal escalamiento será posible, y su convicción proviene en parte de la experiencia pasada. “En comparación con 2001”, cuando el Proyecto Genoma Humano estaba a punto de completarse, “ahora es aproximadamente 500.000 veces más barato secuenciar ADN”, dice Steven Salzberg , profesor distinguido de Bloomberg en la Universidad Johns Hopkins y director del Centro de Biología Computacional de la escuela . “Y también es aproximadamente 500.000 veces más rápido de secuenciar”, agrega. “Esa es la escala, en los últimos 25 años, una escala de aceleración que ha superado ampliamente cualquier mejora en la tecnología computacional, ya sea en memoria o velocidad de procesadores”.

Un primer plano muestra las manos de una persona escribiendo con un marcador negro sobre una etiqueta amarilla adherida a un pequeño frasco de plástico para muestras.

Un lepidopterista escribió información de identificación en una etiqueta adherida a un frasco de especímenes que contenía una polilla capturada durante una excursión de captura de luz cerca de Malles Venosta, Italia. Luigi Avantaggiato

Hay muchas razones para celebrar el EBP y los avances tecnológicos que lo sustentarán. Tras establecer un genoma para cada criatura eucariota, los investigadores obtendrán nuevos y profundos conocimientos sobre las conexiones entre los hilos de la red de la vida terrestre y sobre cómo se desarrolló la evolución de sus innumerables formas de vida. Este conocimiento será cada vez más importante a medida que el cambio climático altere los ecosistemas de los que dependen todas esas criaturas, incluyéndonos a nosotros.

Y aunque el proyecto es una colaboración científica, podría generar importantes beneficios económicos. Muchos fármacos, enzimas, catalizadores y otras sustancias químicas de incalculable valor se identificaron por primera vez en muestras naturales . Los investigadores esperan descubrir muchos más en el proceso de identificar, en efecto, cada uno de los miles de millones de genes eucariotas de la Tierra, muchos de los cuales codifican algún tipo de proteína.

“Una idea es que al observar las plantas, que contienen todo tipo de sustancias químicas, a menudo producidas para combatir insectos o plagas, podríamos encontrar nuevas moléculas que se convertirán en medicamentos importantes”, afirma Richard Durbin , profesor de genética en la Universidad de Cambridge y veterano de varias iniciativas de secuenciación genómica. La rapamicina , un inmunosupresor y fármaco contra el cáncer , por citar solo uno de los innumerables ejemplos, provino del genoma de un microbio.

Tus genes son una gran razón por la que eres tú

El EBP es una organización coordinadora de unos 60 proyectos (y sigue aumentando) que secuencian especies en una región o en un grupo taxonómico específico. El proyecto más exitoso es el Proyecto Árbol de la Vida de Darwin , que secuencia todas las especies de Gran Bretaña e Irlanda y ha aportado aproximadamente la mitad de los genomas registrados por el EBP hasta la fecha. El Proyecto Psique surgió de la iniciativa Árbol de la Vida de Darwin, y ambos han recibido el generoso apoyo del Wellcome Trust .

Para tener una idea de la magnitud del EBP general, considere lo que se necesita para secuenciar una especie. Primero, un organismo debe ser encontrado o capturado y muestreado, por supuesto. Eso es lo que llevó a Wiesmair, Spilker y a otros 41 lepidopteristas a los Alpes italianos para la expedición del Proyecto Psique el pasado julio. Durante cinco días, recolectaron más de 200 nuevas especies para secuenciar, lo que aumentará las 1000 secuencias completadas del genoma de lepidópteros ya completadas y las aproximadamente 2000 muestras pendientes de secuenciación. Aún queda mucho trabajo por hacer; existen alrededor de 11 000 especies de polillas y mariposas en Europa y Gran Bretaña.

Tras el muestreo, se extrae el material genético (el ADN de la criatura) de las células y se fragmenta en fragmentos lo suficientemente cortos como para que los secuenciadores los lean. Tras la secuenciación, se analizan los datos del genoma para determinar la ubicación de los genes y, de ser posible, su función.

En los últimos 25 años, la aceleración de la tecnología de secuenciación genética ha superado ampliamente cualquier mejora en la tecnología computacional, ya sea en la memoria o en la velocidad de los procesadores .

El ADN es una molécula cuya estructura es la famosa doble hélice . Reside en el núcleo de cada célula del cuerpo de todo ser vivo. Si pensamos en la molécula como una escalera en espiral, los peldaños están formados por pares de unidades químicas llamadas bases. Hay cuatro bases diferentes: adenina (A), guanina (G), citosina (C) y timina (T). La adenina siempre se empareja con la timina, y la guanina siempre se empareja con la citosina. Por lo tanto, un “peldaño” puede ser cualquiera de cuatro cosas: A–T, T–A, C–G o G–C.

Esas cuatro permutaciones de pares de bases son los símbolos que componen el código de la vida. Sus cadenas conforman el genoma como segmentos de diversas longitudes llamados genes . Tus genes controlan, al menos parcialmente, la mayoría de tus rasgos físicos y muchos de tus rasgos mentales: no solo el color de tus ojos y tu altura, sino también a qué enfermedades eres susceptible, la dificultad para desarrollar músculo o perder peso, e incluso si eres propenso al mareo por movimiento.

Cómo funciona la secuenciación genómica de lectura larga

La secuenciación de lecturas largas comienza fragmentando una muestra de material genético en fragmentos que suelen tener una longitud de unos 20.000 pares de bases. A continuación, la tecnología de secuenciación lee la secuencia de pares de bases de esas cadenas de ADN para producir segmentos aleatorios, llamados “lecturas”, de ADN con una longitud de al menos 10.000 pares. Una vez obtenidas estas lecturas largas, se utiliza un potente software bioinformático para construir tramos más largos de secuencia contigua mediante la superposición de lecturas que comparten la misma secuencia de bases.

Para comprender el proceso, piense en un genoma como una novela y en cada uno de sus cromosomas como un capítulo de la novela. Imagine que tritura la novela en trozos de papel de unos 5 centímetros cuadrados cada uno. Su tarea consiste en volver a ensamblarlos para formar la novela original (por desgracia, las páginas no están numeradas). Lo que hace posible esta tarea es la superposición: al triturar varias copias de la novela, los trozos se superponen, lo que facilita ver dónde termina una y dónde empieza otra.

Sin embargo, lo que lo hace mucho más difícil son las muchas secciones del libro llenas de tonterías repetitivas: la misma palabra repetida cientos o incluso miles de veces. Al menos la mitad de un genoma típico de mamífero consiste en estas secuencias repetitivas, algunas de las cuales tienen funciones reguladoras y otras se consideran ADN “basura” que desciende de genes antiguos o infecciones virales y ya no son funcionales. La tecnología de lectura larga es experta en manejar estas secuencias repetitivas. Volviendo a la analogía de la destrucción de novelas, imagine intentar volver a ensamblar el libro después de que se destrozó en pedazos de solo 1 centímetro cuadrado en lugar de 5. Eso es análogo al desafío que enfrentaban anteriormente los investigadores al intentar ensamblar secuencias de ADN de un millón de pares de bases utilizando la antigua tecnología de secuenciación de “lectura corta” .

Los dos enfoques para la secuenciación de lecturas largas

El mercado de la secuenciación de lectura larga cuenta con dos empresas líderes —Oxford Nanopore Technologies (ONT) y Pacific Biosciences of California (PacBio)— que compiten intensamente. Ambas empresas han desarrollado sistemas completamente diferentes.

El núcleo del sistema de ONT es una celda de flujo que contiene 2000 o más aberturas diminutas llamadas, apropiadamente, nanoporos. Los nanoporos están anclados en una membrana eléctricamente resistente, integrada en un chip sensor. Durante su funcionamiento, cada extremo de un segmento de ADN se une a una molécula llamada adaptador, que contiene una enzima helicasa . Se aplica un voltaje a través del nanoporo para crear un campo eléctrico , que captura el ADN con el adaptador unido. La helicasa comienza a descomprimir el ADN bicatenario: una de las hebras atraviesa el nanoporo, base por base, y la otra se libera al medio.

SECUENCIACIÓN ÓPTICA (Pacific Biosciences)

Proceso de secuenciación de ADN con nucleótidos fluorescentes en un chip y lecturas de intensidad.

Chris Philpot

Una enzima polimerasa replica la cadena de ADN, conectando cada base con un nucleótido complementario especialmente diseñado. Este nucleótido emite una luz de un color característico que identifica la base que se está conectando.

Cada cadena de ADN está inmovilizada en el fondo de un pocillo.

A medida que la cadena de ADN se replica, cada base, al incorporarse, emite un pequeño destello de luz de un color característico de la base. La secuencia de destellos indica la secuencia de bases.

Lo que impulsa la hebra a través del nanoporo es ese voltaje: es de tan solo unos 0,2 voltios, pero el nanoporo tiene solo 5 nanómetros de ancho, por lo que el campo eléctrico es de varios cientos de miles de voltios por metro. “Es como un relámpago que atraviesa el poro”, dice David Deamer , uno de los inventores de la tecnología. “Al principio, temíamos quemar el ADN, pero resultó que el agua circundante absorbió el calor”.

Ese tipo de intensidad de campo normalmente impulsaría la molécula de ADN a través del poro a velocidades demasiado altas para su análisis. Pero la helicasa actúa como un freno, haciendo que la molécula avance con un movimiento de trinquete, una base a la vez, a una velocidad aún activa de aproximadamente 400 bases por segundo. Mientras tanto, el campo eléctrico también impulsa un flujo de iones a través del nanoporo. Este flujo de corriente disminuye por la presencia de una base en el nanoporo y, fundamentalmente, la magnitud de la disminución depende de cuál de las cuatro bases (A, T, G o C) entre en el poro. El resultado es una señal eléctrica que puede traducirse rápidamente en una secuencia de bases.

SECUENCIACIÓN DE NANOPOROS (Oxford Nanopore)

Diagrama de secuenciación de nanoporos que muestra el ADN pasando a través de un nanoporo para leer los cambios de corriente iónica.

Chris Philpot

La enzima helicasa desenreda el ADN bicatenario, y una de las hebras penetra en el nanoporo. La enzima la introduce a través del nanoporo con un movimiento de trinquete, base por base.

La corriente iónica se reduce en una cantidad característica, dependiendo de la base. La señal de corriente indica la secuencia de bases.

Las máquinas de PacBio se basan en un método óptico en lugar de electrónico para identificar las bases. El proceso más reciente de PacBio , denominado HiFi, comienza por tapar ambos extremos del segmento de ADN y desenroscarlo para crear un bucle monocatenario. Cada bucle se coloca en un pocillo infinitesimal de un microchip, que puede tener 25 millones de pocillos. Cada bucle lleva una enzima polimerasa unida a la cual cumple una función crucial cada vez que una célula se divide. Esta enzima se une al ADN monocatenario y añade las bases complementarias, completando cada peldaño de la escalera. PacBio utiliza versiones especiales de las cuatro bases, diseñadas para fluorescer con un color característico al exponerse a la luz ultravioleta .

Un láser UV brilla a través del fondo del diminuto pocillo, y un fotosensor en la parte superior detecta los tenues destellos de luz a medida que la polimerasa recorre el bucle de la muestra de ADN, base por base. El resultado es una secuencia de destellos de luz, a una velocidad de aproximadamente tres por segundo, que revela la secuencia de pares de bases en la muestra de ADN.

Dado que la muestra de ADN se ha convertido en un bucle, todo el proceso puede repetirse para lograr una mayor precisión, simplemente recorriendo el bucle una vez más. La máquina insignia de PacBio, Revio, suele realizar de cinco a diez pasadas, alcanzando una precisión media del 99,9 %, según Aaron Wenger , director sénior de marketing de productos de la empresa.

Cómo los investigadores ampliarán la secuenciación de lectura larga

Ese tipo de precisión no es barata. Un sistema Revio , que consta de cuatro chips, cada uno con 25 millones de pocillos, cuesta alrededor de 600.000 dólares, según Wenger. Pesa 465 kilogramos y tiene aproximadamente el tamaño de un refrigerador doméstico grande. PacBio afirma que un solo Revio puede secuenciar aproximadamente cuatro genomas humanos completos en un período de 24 horas por menos de 1.000 dólares por genoma.

ONT afirma tener una precisión superior al 99 % en su dispositivo estrella, llamado PromethION 24. Su precio ronda los 300 000 dólares, según Rosemary Sinclair Dokos , directora de producto y marketing de ONT. Otra ventaja del sistema ONT PromethION es su capacidad para procesar fragmentos de ADN con hasta un millón de pares de bases. ONT también ofrece un sistema básico, llamado MinION Mk1D , por tan solo 3000 dólares. Tiene el tamaño aproximado de dos teléfonos inteligentes apilados uno encima del otro y se conecta a una computadora portátil, lo que ofrece a los investigadores una configuración fácil de transportar sobre el terreno.

Tres personas con batas blancas se encuentran junto a máquinas en un laboratorio de investigación.

En el Centro Nacional de Análisis Genómico de Barcelona, ​​el técnico Álvaro Carreras prepara una máquina secuenciadora de lectura larga PromethION, de Oxford Nanopore Technologies, para secuenciar un genoma. Detrás de Carreras hay una máquina de lectura larga Revio de Pacific Biosciences. Luigi Avantaggiato

Aunque los investigadores suelen tener preferencias claras, no es raro que un laboratorio de genética de vanguardia cuente con equipos de ambas compañías. En el Centro Nacional de Análisis Genómico de Barcelona, ​​por ejemplo, los investigadores tienen acceso tanto a los equipos PacBio Revio como a los PromethION 24 y GridION de la ONT.

Durbin, de la Universidad de Cambridge , ve muchas ventajas en la situación actual. «Es muy positivo tener dos empresas», declara. «Compiten entre sí por el mercado». Y esa competencia sin duda impulsará los avances tecnológicos con los que cuentan los promotores del EBP para que el proyecto llegue a buen puerto.

Las manos de un técnico, vestido con guantes azules, sostienen una pequeña placa de circuito.

Un técnico del Centro Nacional de Análisis Genómico de Barcelona sostiene una celda de flujo para un secuenciador de lectura larga PromethION de Oxford Nanopore Technologies. La celda de flujo contiene un chip que interactúa con la muestra de ADN para realizar la secuenciación de lectura larga. Luigi Avantaggiato

Wenger, de PacBio, señala que los chips de 25 millones de pocillos que sustentan su sistema Revio aún se fabrican en obleas semiconductoras de 200 milímetros. Según él, la transición a obleas de 300 milímetros y técnicas litográficas más avanzadas les permitiría obtener muchos más chips por oblea y colocar cientos de millones de pocillos en cada uno de ellos, si el mercado lo demanda.

En ONT, Dokos describe cálculos similares. Una sola celda de flujo ahora consta de más de 2000 nanoporos, y un sistema PromethION 24 de vanguardia puede tener 24 celdas de flujo (o más de 48 000 nanoporos) funcionando en paralelo. Pero un sistema futuro podría tener cientos de miles de nanoporos, afirma, de nuevo, si el mercado lo demanda.

El EBP necesitará todos esos avances y más. El director del EBP, Lewin, señala que después de siete años, la iniciativa de tres fases está concluyendo la fase uno y preparándose para la fase dos. El objetivo para la fase dos es secuenciar 150.000 genomas entre 2026 y 2030. Para la fase dos, “Tenemos que llegar a 37.500 genomas por año”, dice Lewin. “En este momento, nos estamos acercando a 3.000 por año”. En la fase dos, el costo por genoma secuenciado también tendrá que disminuir de aproximadamente $26.000 por genoma en la fase uno a $6.100, según la hoja de ruta oficial del EBP . Esa cifra de $6.100 incluye todos los costos, no solo la secuenciación sino también el muestreo y las otras etapas necesarias para producir un genoma terminado, con todos los genes identificados y asignados a los cromosomas.

Se administra un líquido verdoso a través de una pipeta en un puerto situado en un dispositivo electrónico.

Un técnico del Centro Nacional de Análisis Genómico, en Barcelona, ​​introduce una muestra de ADN fragmentado para secuenciar en una máquina PromethION de Oxford Nanopore Technologies. Luigi Avantaggiato

La tercera fase elevará aún más la apuesta. La hoja de ruta prevé más de 1,65 millones de secuencias genómicas entre 2030 y 2035, a un coste de 1.900 dólares por genoma. Si logran llevarlo a cabo, el proyecto completo habrá costado aproximadamente 4.700 millones de dólares, una cantidad considerablemente menor en términos reales que lo que costó realizar solo el genoma humano hace 22 años. Todos los datos recopilados —las secuencias genómicas de todas las especies conocidas de la Tierra— ocuparán poco más de 1 exabyte (1.000 millones de gigabytes) de almacenamiento digital.

Podría decirse que será el exabyte más valioso de toda la ciencia. «Con estos datos genómicos, podemos llegar a una de las preguntas que Darwin se planteó hace mucho tiempo: ¿cómo surge una especie? ¿Cuál es el origen de las especies? En su famoso libro, nunca llegó a responder a la pregunta», afirma Mark Blaxter , quien dirige el Proyecto del Árbol de la Vida de Darwin en el Instituto Wellcome Sanger, cerca de Cambridge, y quien también concibió e inició el Proyecto Psique. «Tendremos una idea mucho más clara de qué constituye una especie y cómo se distinguen entre sí».

Parte de ese conocimiento provendrá de las numerosas polillas recolectadas en esas noches de verano en los Alpes italianos. Los lepidópteros “se remontan a unos 300 millones de años”, afirma Charlotte Wright , codirectora, junto con Blaxter, del Proyecto Psique. Analizar los genomas de un gran número de especies ayudará a explicar por qué algunas ramas del orden de los lepidópteros han desarrollado muchas más especies que otras, afirma.

Y ese tipo de conocimiento debería eventualmente acumularse para dar respuestas a algunas de las preguntas más profundas de la biología sobre la evolución y sus mecanismos de acción. “Lo sorprendente es que al hacer esto con todos los lepidópteros de Europa, no solo estamos aprendiendo sobre casos individuales”, dice Wright. “Hemos aprendido de todos ellos”.

Fuente: https://spectrum.ieee.org/whole-genome-sequencing

Deja una respuesta