¿En dónde guardas tus bits? Cada día producimos más datos, incluidos correos electrónicos, mensajes de texto, fotografías y publicaciones en redes sociales. Aunque gran parte de este contenido es olvidable, todos los días implícitamente decidimos no deshacernos de esos datos. Lo guardamos en algún lugar, ya sea en un teléfono, en el disco duro de una computadora o en la nube, donde eventualmente se archiva, en la mayoría de los casos en cinta magnética. Consideremos además los diversos dispositivos y sensores que actualmente transmiten datos a la Web, y los automóviles, aviones y otros vehículos que almacenan datos de viajes para su uso posterior. Todos esos miles de millones de cosas en Internet de las cosas producen datos, y toda esa información también debe almacenarse en algún lugar.
por Rob Carlson – IEEE Spectrum

Los datos se están acumulando exponencialmente y la tasa de producción de información está aumentando más rápido que la densidad de almacenamiento de la cinta, que sólo podrá mantenerse al día con la avalancha de datos durante unos años más. La firma de investigación Gartner predice que para 2030 , el déficit de capacidad de almacenamiento empresarial por sí solo podría representar casi dos tercios de la demanda, o alrededor de 20 millones de petabytes. Si continuamos por el camino actual, en las próximas décadas necesitaremos no sólo exponencialmente más cintas magnéticas, unidades de disco y memoria flash, sino también exponencialmente más fábricas para producir estos medios de almacenamiento, y exponencialmente más centros de datos y almacenes para almacenarlos. Aunque esto sea técnicamente factible, económicamente es inverosímil.
Las proyecciones anteriores sobre los requisitos de almacenamiento de datos estimaban una necesidad global de alrededor de 12 millones de petabytes de capacidad para 2030. La firma de investigación Gartner publicó recientemente nuevas proyecciones, elevando esa estimación en 20 millones de petabytes. El mundo no está en camino de producir suficientes tecnologías de almacenamiento actuales para llenar ese vacío. FUENTE: GARTNER
Afortunadamente, tenemos acceso a una tecnología de almacenamiento de información que es barata, fácilmente disponible y estable a temperatura ambiente durante milenios: el ADN , el material de los genes. En unos años su disco duro puede estar lleno de cosas tan blandas.
Almacenar información en el ADN no es un concepto complicado. Hace décadas, los humanos aprendieron a secuenciar y sintetizar el ADN, es decir, a leerlo y escribirlo. Cada posición en una sola cadena de ADN consta de uno de cuatro ácidos nucleicos, conocidos como bases y representados como A, T, G y C. En principio, cada posición en la cadena de ADN podría usarse para almacenar dos bits (A podría representar 00, T podría ser 01, etc.), pero en la práctica, la información generalmente se almacena en un bit efectivo (0 o 1) por base.
Además, el ADN supera con creces la densidad de almacenamiento de la cinta magnética o de los medios de estado sólido. Se ha calculado que toda la información contenida en Internet (que se estima en unos 120 zettabytes) podría almacenarse en un volumen de ADN del tamaño de un terrón de azúcar, o aproximadamente un centímetro cúbico. Lograr esa densidad es teóricamente posible, pero podríamos arreglárnoslas con una densidad de almacenamiento mucho menor. Una densidad de almacenamiento efectiva de “un Internet por cada 1.000 metros cúbicos” aún daría como resultado algo considerablemente más pequeño que una sola cinta que alberga un centro de datos en la actualidad.

En 2018, los investigadores construyeron este primer prototipo de máquina que podía escribir, almacenar y leer datos con ADN. INVESTIGACIÓN DE MICROSOFT
La mayoría de los ejemplos de almacenamiento de datos de ADN hasta la fecha se basan en la síntesis química de tramos cortos de ADN, de hasta 200 bases aproximadamente. Los métodos estándar de síntesis química son adecuados para proyectos de demostración, y quizás para los primeros esfuerzos comerciales, que almacenan cantidades modestas de música, imágenes, texto y vídeo, quizás hasta cientos de gigabytes. Sin embargo, a medida que la tecnología madure, necesitaremos pasar de la síntesis química a una solución mucho más elegante, escalable y sostenible: un chip semiconductor que utilice enzimas para escribir estas secuencias.
Una vez que los datos se han escrito en el ADN, la molécula debe mantenerse segura en algún lugar. Los ejemplos publicados incluyen secar pequeñas manchas de ADN sobre vidrio o papel , encerrar el ADN en partículas de azúcar o sílice , o simplemente ponerlo en un tubo de ensayo. La lectura se puede lograr con cualquier cantidad de tecnologías de secuenciación comerciales.
Organizaciones de todo el mundo ya están dando los primeros pasos hacia la construcción de una unidad de ADN que pueda escribir y leer datos de ADN. Participé en este esfuerzo a través de una colaboración entre Microsoft y el Laboratorio de Sistemas de Información Molecular de la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen de la Universidad de Washington. Ya hemos logrado avances considerables y podemos ver el camino a seguir.
¿Qué tan grave es el problema del almacenamiento de datos?
Primero, veamos el estado actual del almacenamiento. Como se mencionó, el almacenamiento en cinta magnética tiene un problema de escala. Para empeorar las cosas, la cinta se degrada rápidamente en comparación con la escala de tiempo en la que queremos almacenar información. Para que dure más de una década, la cinta debe almacenarse cuidadosamente a temperaturas frescas y baja humedad, lo que normalmente significa el uso continuo de energía para el aire acondicionado. E incluso cuando se almacena con cuidado, la cinta debe reemplazarse periódicamente, por lo que necesitamos más cinta no sólo para todos los datos nuevos, sino también para reemplazar la cinta que almacena los datos antiguos.
Sin duda, la densidad de almacenamiento de la cinta magnética ha ido aumentando durante décadas , una tendencia que nos ayudará a mantener nuestras cabezas por encima de la inundación de datos durante un tiempo más. Pero las prácticas actuales están generando fragilidad en el ecosistema de almacenamiento. La compatibilidad con versiones anteriores a menudo se garantiza solo para una o dos generaciones del hardware utilizado para leer ese medio, lo que podría durar solo unos pocos años, lo que requiere el mantenimiento activo del hardware antiguo o una migración de datos continua. Por lo tanto, todos los datos que ya hemos almacenado digitalmente corren el riesgo de perderse debido a la obsolescencia tecnológica .
Cómo funciona el almacenamiento de datos de ADN

CHRIS PHILPOT
Hasta ahora, el debate ha asumido que queremos conservar todos los datos que producimos y que pagaremos para hacerlo. Deberíamos considerar la contrahipótesis: que, en cambio, nos involucraremos en un olvido sistemático a escala global. Esta amnesia voluntaria podría lograrse si no se recopilaran tantos datos sobre el mundo o si no se guardaran todos los datos que recopilamos, tal vez conservando únicamente cálculos y conclusiones derivados. O tal vez no todas las personas u organizaciones tengan el mismo acceso al almacenamiento. Si se convierte en un recurso limitado, el almacenamiento de datos podría convertirse en una tecnología estratégica que permita a una empresa, o a un país, capturar y procesar todos los datos que desee, mientras que los competidores sufren un déficit de almacenamiento. Pero hasta el momento, no hay señales de que los productores de datos estén dispuestos a perderlos.
Si queremos evitar el olvido accidental o intencional, debemos encontrar una solución fundamentalmente diferente para almacenar datos, una que tenga el potencial de lograr mejoras exponenciales mucho más allá de las esperadas para la cinta. El ADN es, con diferencia, la tecnología de almacenamiento de información más sofisticada, estable y densa que los humanos jamás hayan encontrado o inventado. Se ha recuperado ADN genómico legible después de haber estado congelado en la tundra durante 2 millones de años. El ADN es una parte intrínseca de la vida en este planeta. Lo mejor que podemos decir es que el almacenamiento de información genética basado en ácidos nucleicos ha persistido en la Tierra durante al menos 3 mil millones de años, lo que le otorga una ventaja indiscutible como medio de almacenamiento de datos compatible con versiones anteriores y posteriores.
¿Cuáles son las ventajas del almacenamiento de datos de ADN?
Hasta la fecha, los humanos han aprendido a secuenciar y sintetizar fragmentos cortos de ADN monocatenario (ADNss). Sin embargo, en los genomas naturales, el ADN suele estar en forma de ADN largo y bicatenario (ADNds). Este ADNbc se compone de dos secuencias complementarias unidas a una estructura que se asemeja a una escalera giratoria, donde las columnas vertebrales de azúcar forman los rieles laterales y las bases emparejadas (A con T y G con C) forman los escalones de la escalera. Debido a esta estructura, el dsDNA es generalmente más robusto que el ssDNA.
La lectura y la escritura del ADN son procesos moleculares ruidosos. Para permitir la resiliencia en presencia de este ruido, la información digital se codifica mediante un algoritmo que introduce redundancia y distribuye la información entre muchas bases. Los algoritmos actuales codifican información con una densidad física de 1 bit por 60 átomos (un par de bases y las cadenas principales de azúcar a las que están unidas).
EDMÓN DE HARO
Sintetizar y secuenciar ADN se ha vuelto fundamental para la economía global, la salud humana y la comprensión de cómo están cambiando los organismos y ecosistemas a nuestro alrededor. Y es probable que solo mejoremos con el tiempo. De hecho, tanto el costo como el rendimiento por instrumento de la escritura y lectura de ADN han mejorado exponencialmente durante décadas, aproximadamente al mismo ritmo que la Ley de Moore .
En los laboratorios de biología de todo el mundo, ahora es una práctica común solicitar ADN ss sintetizado químicamente a un proveedor comercial; estas moléculas se entregan en longitudes de hasta varios cientos de bases. También es común secuenciar moléculas de ADN que tienen hasta miles de bases de longitud. En otras palabras, ya convertimos información digital hacia y desde el ADN, pero generalmente utilizamos sólo secuencias que tienen sentido en términos biológicos.
Sin embargo, para el almacenamiento de datos de ADN tendremos que escribir secuencias arbitrarias que sean mucho más largas, probablemente de miles a decenas de miles de bases. Lo haremos adaptando el proceso biológico natural y fusionándolo con tecnología de semiconductores para crear dispositivos de entrada y salida de alta densidad.
Existe un interés mundial en crear una unidad de ADN. Los miembros de DNA Data Storage Alliance , fundada en 2020, provienen de universidades, empresas de todos los tamaños y laboratorios gubernamentales de todo el mundo. Las agencias de financiación de Estados Unidos, Europa y Asia están invirtiendo en la tecnología necesaria para desarrollar dispositivos comercialmente relevantes. Clientes potenciales tan diversos como estudios cinematográficos, los Archivos Nacionales de EE. UU . y Boeing han expresado interés en el almacenamiento de datos a largo plazo en ADN.
El almacenamiento de archivos podría ser el primer mercado en surgir, dado que implica escribir una vez con lecturas poco frecuentes y, sin embargo, también exige estabilidad durante muchas décadas, si no siglos. Es fácil almacenar información en el ADN durante ese período de tiempo. La parte desafiante es aprender cómo introducir y sacar la información de la molécula de una manera económicamente viable.
¿Cuáles son los desafíos de I+D del almacenamiento de datos de ADN?
El primer prototipo automatizado integral capaz de escribir, almacenar y leer ADN fue construido por mis colegas de Microsoft y la Universidad de Washington en 2018. El prototipo integraba plomería y química estándar para escribir el ADN, con un secuenciador de la empresa Oxford. Tecnologías Nanopore para leer el ADN. Este dispositivo de un solo canal, que ocupaba una mesa, tenía un rendimiento de 5 bytes durante aproximadamente 21 horas, y de ese tiempo se consumieron todos menos 40 minutos escribiendo “HOLA” en el ADN . Fue un comienzo.
Para que una unidad de ADN pueda competir con las unidades de cinta de archivo actuales, debe poder escribir alrededor de 2 gigabits por segundo, lo que, según las densidades de almacenamiento de datos de ADN demostradas, es de aproximadamente 2 mil millones de bases por segundo. Para poner esto en contexto, calculo que el mercado mundial total de ADN sintético hoy en día no supera las 10 terabases por año, lo que equivale a unas 300.000 bases por segundo durante un año. Toda la industria de la síntesis de ADN necesitaría crecer aproximadamente 4 órdenes de magnitud sólo para competir con una sola unidad de cinta. Mantenerse al día con la demanda global total de almacenamiento requeriría otros 8 órdenes de magnitud de mejora para 2030.
El crecimiento exponencial de la tecnología basada en silicio es la razón por la que terminamos produciendo tantos datos. Un crecimiento exponencial similar será fundamental en la transición al almacenamiento de ADN.
Pero los humanos ya han hecho este tipo de ampliación antes. El crecimiento exponencial de la tecnología basada en silicio es la razón por la que terminamos produciendo tantos datos. Un crecimiento exponencial similar será fundamental en la transición al almacenamiento de ADN.
Mi trabajo con colegas de la Universidad de Washington y Microsoft ha arrojado muchos resultados prometedores. Esta colaboración ha avanzado en la codificación del ADN tolerante a errores, escribiendo información en secuencias de ADN, almacenando ese ADN de manera estable y recuperando la información leyendo el ADN. El equipo también ha explorado las ventajas económicas, medioambientales y arquitectónicas del almacenamiento de datos de ADN en comparación con otras alternativas.
Uno de nuestros objetivos era construir un chip semiconductor que permitiera la síntesis de ADN de alta densidad y alto rendimiento. Ese chip , que completamos en 2021, demostró que es posible controlar digitalmente procesos electroquímicos en millones de pozos de 650 nanómetros de diámetro. Si bien el chip en sí fue un paso tecnológico hacia adelante, la síntesis química que utilizamos en ese chip tuvo algunos inconvenientes, a pesar de ser el estándar de la industria. El principal problema es que emplea un solvente orgánico volátil, corrosivo y tóxico ( acetonitrilo ), que ningún ingeniero quiere cerca de la electrónica de un centro de datos en funcionamiento.
Además, basándose en un análisis de sostenibilidad de un centro de datos de ADN teórico realizado por mis colegas de Microsoft, concluyo que el volumen de acetonitrilo necesario para un solo centro de datos grande, por no hablar de muchos centros de datos grandes, sería logística y económicamente prohibitivo. Sin duda, cada centro de datos podría equiparse con una instalación de reciclaje para reutilizar el disolvente, pero eso sería costoso.
Afortunadamente, existe una tecnología emergente diferente para construir ADN que no requiere tales solventes, sino que utiliza una solución salina benigna. Empresas como DNA Script y Molecular Assemblies están comercializando sistemas automatizados que utilizan enzimas para sintetizar ADN. Estas técnicas están reemplazando la síntesis química tradicional de ADN para algunas aplicaciones en la industria biotecnológica. La generación actual de sistemas utiliza plomería simple o luz para controlar las reacciones de síntesis. Pero es difícil imaginar cómo se pueden escalar para lograr un rendimiento lo suficientemente alto como para permitir que un dispositivo de almacenamiento de datos de ADN funcione incluso a una fracción de 2 gigabases por segundo.
El precio de la secuenciación de ADN se ha desplomado de 25 dólares por base en 1990 a menos de una millonésima de centavo en 2024. El coste de sintetizar trozos largos de ADN bicatenario también está disminuyendo, pero la síntesis debe ser mucho más barata para el almacenamiento de datos de ADN. para despegar realmente. FUENTE: ROB CARLSON
Aún así, las enzimas dentro de estos sistemas son piezas importantes del rompecabezas del impulso del ADN. Al igual que el almacenamiento de datos de ADN, la idea de utilizar enzimas para escribir ADN no es nueva, pero la síntesis enzimática comercial sólo se hizo viable en los últimos años. La mayoría de estos procesos utilizan una enzima llamada desoxinucleotidil transferasa terminal o TdT. Mientras que la mayoría de las enzimas que operan en el ADN utilizan una hebra como plantilla para completar la otra hebra, la TdT puede agregar bases arbitrarias al ADN monocatenario.
La TdT natural no es una gran enzima para la síntesis, porque incorpora las cuatro bases con cuatro eficiencias diferentes y es difícil de controlar. Los esfuerzos durante la última década se han centrado en modificar la TdT y convertirla en un sistema en el que la enzima pueda controlarse mejor.
En particular, esas modificaciones de la TdT fueron posibles gracias a décadas anteriores de mejoras en la lectura y escritura del ADN, y las nuevas enzimas modificadas ahora están contribuyendo a nuevas mejoras en la escritura y, por lo tanto, en la modificación de genes y genomas. Este fenómeno es el mismo tipo de retroalimentación que impulsó décadas de mejora exponencial en la industria de los semiconductores, en las que las empresas utilizaron chips de silicio más capaces para diseñar la próxima generación de chips de silicio. Debido a que esa retroalimentación continúa a buen ritmo en ambos campos, no pasará mucho tiempo antes de que podamos combinar las dos tecnologías en un solo dispositivo funcional: un chip semiconductor que convierte señales digitales en estados químicos (por ejemplo, cambios en el pH) y un sistema enzimático. que responde a esos estados químicos agregando bases individuales específicas para construir una hebra de ADN sintético.
El equipo de la Universidad de Washington y Microsoft, en colaboración con la empresa de síntesis enzimática Ansa Biotechnologies , dio recientemente el primer paso hacia este dispositivo. Utilizando nuestro chip de alta densidad, demostramos con éxito el control electroquímico de adiciones enzimáticas de base única . El proyecto ahora está en pausa mientras el equipo evalúa los posibles próximos pasos. Sin embargo, incluso si este esfuerzo no se reanuda, alguien hará que la tecnología funcione. El camino es relativamente claro; construir una unidad de ADN comercialmente relevante es simplemente una cuestión de tiempo y dinero.
Mirando más allá del almacenamiento de datos de ADN
Con el tiempo, la tecnología para el almacenamiento de ADN alterará por completo la economía de la lectura y escritura de todo tipo de información genética. Incluso si el nivel de rendimiento se establece muy por debajo del de una unidad de cinta, cualquier operación comercial basada en la lectura y escritura de datos en ADN tendrá un rendimiento muchas veces mayor que el de la industria de síntesis de ADN actual, con un costo por base increíblemente pequeño.
Al mismo tiempo, los avances en la síntesis de ADN para su almacenamiento aumentarán el acceso al ADN para otros usos, especialmente en la industria biotecnológica, y, por lo tanto, ampliarán las capacidades para reprogramar la vida. En algún momento, cuando una unidad de ADN alcance un rendimiento de 2 gigabases por segundo (o 120 gigabases por minuto), esta caja podría sintetizar el equivalente a unos 20 genomas humanos completos por minuto. Y cuando los humanos combinemos nuestro conocimiento cada vez mayor sobre cómo construir un genoma con el acceso a ADN sintético efectivamente libre, entraremos en un mundo muy diferente.
Las conversaciones que tenemos hoy sobre bioseguridad, quién tiene acceso a la síntesis de ADN y si esta tecnología puede controlarse apenas son una muestra de lo que está por venir. Podremos diseñar microbios para producir sustancias químicas y medicamentos, así como plantas que puedan defenderse de plagas o secuestrar minerales del medio ambiente, como arsénico, carbono u oro. A 2 gigabases por segundo, construir contramedidas biológicas contra nuevos patógenos llevará unos minutos. Pero también lo será la construcción de genomas de nuevos patógenos. De hecho, este flujo de información entre lo digital y lo biológico significará que todas las preocupaciones de seguridad del mundo de las tecnologías de la información también se introducirán en el mundo de la biología. Tendremos que estar atentos a estas posibilidades.
Recién estamos comenzando a aprender cómo construir y programar sistemas que integren la lógica digital y la bioquímica. El futuro no se construirá a partir del ADN tal como lo encontramos, sino del ADN tal como lo escribimos.