Los científicos del Instituto de Tecnología de Massachusetts (MIT) y el Institut Pasteur de Francia desarrollaron una técnica para reconstruir genomas completos, incluido el genoma humano, en una computadora personal en cuestión de minutos.
Los investigadores en “Cell Systems” señalaron que es cien veces más rápida que los enfoques actuales más vanguardistas y mucho más sencillos y eficaces. Comparado con el lenguaje, el modelo supone algo así como considerar las palabras en vez de las letras.
“Podemos ensamblar rápidamente genomas y metagenomas completos, incluidos los genomas microbianos, en una computadora portátil modesta”, indicó el científico del laboratorio de informática e inteligencia artificial del MIT, Bonnie Berger.
Asimismo, dijo que esta capacidad es esencial para evaluar los cambios en el microbioma intestinal relacionados con enfermedades e infecciones bacterianas, como la sepsis, y así tratarlas más rápidamente y salvar vidas.
El Proyecto Genoma Humano terminó de ensamblar el primer genoma humano completo en 2003, fruto de una década de colaboración internacional y un costo de 2.700 millones de dólares.
En la actualidad, leer nuestro “código de barras” ya no lleva años, pero todavía requiere varios días y una potencia informática masiva. Las tecnologías de secuenciación de tercera generación ofrecen terabytes de secuencias genómicas de alta calidad con decenas de miles de pares de bases, pero el ensamblaje del genoma utilizando una cantidad inmensa de datos resultó ser un desafío.
Para hacerlo más rápido y eficiente, Berger y sus colegas acudieron a los modelos de lenguaje. A partir del concepto de un gráfico de Bruijn, una estructura de datos simple, utilizada para el ensamblaje del genoma, los investigadores utilizaron secuencias cortas de nucleótidos llamadas minimizadores en lugar de nucleótidos individuales.
Hasta 300 veces más rápido
Los investigadores aplicaron su método para reunir datos de alta fidelidad reales que tienen una precisión de lectura de una sola molécula casi perfecta para las moscas de la fruta Drosophila melanogaster, así como para los datos del genoma humano proporcionados por Pacific Biosciences (PacBio).
Cuando evaluaron los genomas resultantes, Berger y sus asociados encontraron que su software requería aproximadamente 33 veces menos tiempo y ocho veces menos hardware de computación de memoria de acceso aleatorio (RAM) que otros ensambladores de genomas, reportó la revista ABC ciencia.
Su software realizó el ensamblaje del genoma para los datos humanos de alta fidelidad, 81 veces más rápido con 18 veces menos uso de memoria que el ensamblador llamado “Peregrine” y 338 veces más rápido con 19 veces menos uso de memoria que el ensamblador de ‘hifiasm’.
Además utilizaron su método para construir un índice para una colección de 661.406 genomas bacterianos, la colección más grande de su tipo hasta la fecha.
Descubrieron que la nueva técnica podía buscar en toda la colección genes de resistencia a los antimicrobianos en 13 minutos, un proceso que llevó siete horas utilizando la alineación de secuencia estándar.
“Sabíamos que nuestra representación era eficiente, pero no sabíamos que escalaría tan bien en datos reales, después de más optimizaciones del código”, explicó Berger.
/AAC/