Evo ha aprendido el idioma del ADN, por Gemma Marfany

El material genético que tenemos todos los organismos sobre la Tierra se basa en el lenguaje codificado por los ácidos nucleicos. Existen distintos niveles de interpretación de esta información genética: tenemos el ADN, donde está almacenada la información genética heredable; el ARN, que son copias temporales de esta información, sea codificando para proteínas o no codificando; las proteínas, que ejecutan la función; tenemos un código genético, que permite pasar de ácidos nucleicos a proteínas, y tenemos mecanismos de regulación de esta información. Pero esta modularidad a nivel molecular, después se vuelve mucho más compleja cuando hablamos de escalas o niveles de actuación, porque las moléculas actúan a nivel de vías metabólicas o de señalización, que actúan dentro y fuera de las células, células muy diversas que conforman un organismo, que es sobre lo que actúa la selección natural. Es muy difícil mirar una secuencia de ADN, identificar un cambio o mutación y saber qué implica a nivel de organismo, si esa mutación —aunque sea una única mutación— será letal o si no tendrá casi ningún efecto. No basta con leer el lenguaje del ADN, hay que entender la lengua, la sintaxis, la gramática y los órdenes de magnitud de complejidad y de actuación de esta información dentro de su contexto. El contexto de todo el genoma y el contexto de todo el organismo. Los genetistas llevamos años analizando el ADN, diseñando herramientas bioinformáticas cada vez más rápidas para comprender y analizar grandes cantidades de secuencias de ADN, pero todavía nos es muy difícil predecir funciones (cuál es la función precisa de una secuencia de ADN recién identificada), o cuál es el efecto de una mutación o cambio a nivel del organismo, y todavía más difícil es diseñar nuevas secuencias que tengan funciones nuevas. Podemos hacer ingeniería genética de aquello que conocemos, y pegar piezas de ADN, podemos cambiar una letra por otra, que ya sabemos qué hace y cómo lo hace, pero no sabemos diseñar de novo.

Pero, mira por dónde, Evo sí lo sabe hacer. ¿Quién es Evo? De hecho, deberíamos preguntar: ¿qué es Evo? Evo es un programa de inteligencia artificial único —de momento— fundacional (lo que significa que puede servir para muchas cosas) y que se basa en modelos grandes de lenguaje (LLM), como lo es ChatGPT, que pueden leer, comprender y generar todo tipo de texto. Evo ha sido entrenado con 2,7 millones de genomas de procariotas (bacterias, bacteriófagos y plasmidios). A partir de la comparación de todos estos millones de genomas (¡estamos hablando de 300.000 millones de nucleótidos!), Evo ha aprendido a extraer la información básica, dónde están los genes y cómo han ido cambiando evolutivamente en las distintas especies (y, por lo tanto, inferir qué partes de los genes son importantes y cuáles pueden variar), ha aprendido a descubrir si una secuencia es reguladora, codificadora de proteínas, o produce ARN no codificante (como el ARN ribosomal o el ARN de transferencia), pero, además, ha aprendido a interpretar tanto el ADN como el efecto de las mutaciones o cambios a todos los niveles, prediciendo cuál será su efecto sobre el ARN, la proteína y, finalmente, sobre el organismo, en este caso, bacterias. Hasta la fecha, eso no era posible a este nivel, porque los costes computacionales de los programas diseñados no eran asumibles, la unidad de comparación de secuencia (denominada token) implicaba fragmentos más largos de secuencia. En cambio, estos científicos han logrado usar métodos que permiten analizar nucleótido a nucleótido el ADN y comparar su contexto, para comprender su función. Y le han enseñado no solo a entender y predecir, sino también a generar nuevas secuencias que, según su aprendizaje, infiere que pueden funcionar mejor que las que realmente existen en seres vivos. ¡Esto era impensable!

Por ejemplo, para comprobar el poder de análisis y de generación, los investigadores le han pedido a Evo que genere un sistema de edición genética, el sistema CRISPR/Cas9, una especie de bisturí molecular con GPS que permite cortar y pegar ADN generando combinaciones a la carta. Una técnica que ha revolucionado la ingeniería genética en los últimos años. Evo ha estudiado 70.000 secuencias de ADN bacteriano que tienen sistemas CRISPR, con el fin de inspirarse y diseñar nuevos sistemas CRISPR, teniendo en cuenta que debe diseñar conjuntamente la parte de bisturí (proteína) y la parte del GPS (un ARN guía). Y ha conseguido generar nuevos sistemas CRISPR que no existen en la naturaleza, pero que funcionan igual de bien en el laboratorio. Los científicos dicen que Evo también ha alucinado, es decir, que también ha propuesto combinaciones que no funcionan, pero ha propuesto algunas que funcionan igual o mejor que las que han requerido millones de años de evolución dentro de las bacterias. ¡Me parece increíble!

Bioéticamente, se abre una caja de Pandora que, hasta el momento, parecía lejana e inaccesible, casi ciencia ficción

Los científicos también han comprobado que pueden generar nuevos ADNs móviles o transposones, que también son funcionales, demostrando la potencia predictiva y de diseño del sistema. E incluso, le han pedido generar el genoma de una nueva bacteria, desde cero, diseñando todos sus genes. Evo ha generado genes muy similares a los bacterianos, pero distintos, ya que no existen en la naturaleza, son generados por la inteligencia artificial entrenada. Sin embargo, este "genoma falso" no es viable, porque Evo ha generado genes que son potencialmente relevantes, pero ha diseñado otros que no son importantes. O sea, que no ha sido capaz de diseñar —todavía— el genoma completo de una nueva bacteria que no ha existido nunca, pero algún día se conseguirá. Entonces se podría pensar en sintetizar todo el genoma de forma sintética y comprobar si podría ser viable: biología sintética a las puertas de crear nuevas especies.

Los genomas eucariotas, como los nuestros, son bastantes más complejos que los bacterianos, pero Evo es solo el primer modelo de IA con esta tecnología, así que en los próximos años seguro que surgirán muchas mejoras y podrán usarse para comprender, predecir y quizás diseñar genes eucariotas mejorados. Este es un hito que revolucionará la biología tal como la entendemos. Hasta ahora hemos descrito los organismos, ahora podemos entender totalmente cómo son.

Ahora bien, estos modelos de IA son disruptores, y Evo u otros sistemas de IA como él pueden tener un doble uso y pueden poner muchos problemas bioéticos. Por una parte, serán absolutamente cruciales para comprobar cómo ha funcionado la evolución de genes, genomas y especies, permitirá investigar la causa de muchas enfermedades, desarrollar nuevos tratamientos y abordar una cantidad inimaginable de problemas biomédicos y biotecnológicos para los cuales no teníamos solución, pero al mismo tiempo se puede usar de forma maliciosa, por ejemplo, generando nuevos virus, mucho más patogénicos y virulentos que los que existen. Por eso, los investigadores que han creado Evo solo utilizaron secuencias de bacterias y bacteriófagos y no le proporcionaron para entrenar ninguna secuencia de virus eucariota (nosotros somos eucariotas) o que pueda infectarnos. A pesar de que la mayor parte de la investigación en IA se desarrolla en empresas privadas, los creadores de Evo creen en el bien común y que la ciencia avanzará si los científicos somos transparentes, por eso, todos sus algoritmos han sido depositados públicamente y son accesibles.

Eso no obsta para que, bioéticamente, se abra una caja de Pandora que, hasta el momento, parecía lejana e inaccesible, casi ciencia ficción. Realmente hay que arremangarse y pensar muy profundamente qué queremos hacer con estas herramientas de IA, tan poderosas que no solo saben leer el ADN, sino que entienden su semántica a todos los niveles biológicos y, por eso, pueden generar nuevos textos de ADN con significados biológicos impensables... Tierra ignota.

Más