jueves, 5 de marzo de 2026

Evo 2 IA de Codigo Abierto Revoluciona Genomica

La inteligencia artificial está transformando la genómica de manera sin precedentes. Evo 2, un sistema de IA de código abierto, ha sido entrenado con trillones de pares de bases de ADN provenientes de bacterias, arqueas y eucariotas. Este avance representa un salto significativo respecto a su predecesor Evo, que solo trabajaba con genomas bacterianos. Lo extraordinario de Evo 2 es su capacidad para identificar características complejas en genomas eucariotas, incluyendo sitios regulatorios y sitios de corte y empalme que resultan difíciles de detectar incluso para expertos humanos.

Evo 2 IA de Codigo Abierto Revoluciona Genomica

Los genomas eucariotas presentan una complejidad mucho mayor que los bacterianos. Mientras que los genes bacterianos son secuencias continuas organizadas eficientemente, los genes eucariotas están interrumpidos por intrones, regulados por secuencias dispersas a lo largo de cientos de miles de pares de bases, y rodeados de enormes cantidades de ADN aparentemente no funcional. Esta complejidad ha dificultado históricamente la interpretación de estos genomas, haciendo que las herramientas especializadas existentes sean propensas a errores cuando analizan genomas de miles de millones de bases.

El sistema Evo 2 se basa en una red neuronal convolucional llamada StripedHyena 2 y fue entrenado en dos etapas utilizando el conjunto de datos OpenGenome2, que contiene 8.8 trillones de bases. La versión completa cuenta con 40 mil millones de parámetros entrenados con el conjunto completo de datos. La lógica del entrenamiento es elegante: si algo es lo suficientemente importante como para haberse conservado evolutivamente en múltiples especies, aparecerá repetidamente en diferentes contextos, permitiendo al sistema aprender sin necesidad de ajustes específicos para cada tarea.

Los resultados son impresionantes. Evo 2 puede detectar regiones codificantes de proteínas, límites de intrones, características estructurales de proteínas como hélices alfa y láminas beta, e incluso elementos genéticos móviles. Cuando se probó con mutaciones de un solo par de bases, el sistema reconoció correctamente problemas en sitios de inicio de transcripción y traducción, y evaluó la severidad de las mutaciones. Notablemente, puede identificar en qué especie está trabajando y ajustar su análisis según el código genético apropiado.

El equipo investigador ha liberado completamente Evo 2 al público, incluyendo parámetros del modelo, código de entrenamiento, código de inferencia y el conjunto de datos OpenGenome2. Aunque los experimentos biológicos para probar completamente sus capacidades de diseño de secuencias llevarán meses o años, este sistema promete revolucionar la anotación genómica y potencialmente descubrir características del genoma que aún desconocemos.

Fuente Original: https://arstechnica.com/science/2026/03/large-genome-model-open-source-ai-trained-on-trillions-of-bases/

Artículos relacionados de LaRebelión:

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario