Inteligencia artificial determina los pliegues adecuados de proteínas 60 veces más rápido

Comparta este Artículo en:

La vida en la Tierra no existiría tal como la conocemos, si no fuera por las moléculas de proteína que permiten procesos críticos desde la fotosíntesis y la degradación enzimática hasta la vista y nuestro sistema inmunológico.

Y como la mayoría de las facetas del mundo natural, la humanidad acaba de comenzar a descubrir la multitud de tipos de proteínas que existen en realidad.

En lugar de explorar las partes más inhóspitas del planeta en busca de nuevos microorganismos que puedan tener un nuevo sabor a molécula orgánica, los investigadores de Meta han desarrollado una base de datos metagenómica primera en su tipo, el Atlas Metagenómico ESM, que podría acelerar el rendimiento de plegamientos de proteína existente en 60x.

La metagenómica es una disciplina científica relativamente nueva, pero muy real, que estudia “la estructura y función de secuencias de nucleótidos enteras aisladas y analizadas de todos los organismos (típicamente microbios) en una muestra a granel“.

A menudo utilizadas para identificar las comunidades bacterianas que viven en nuestra piel o en el suelo, estas técnicas tienen una función similar a la cromatografía de gases, en la que intenta identificar lo que está presente en un sistema de muestra determinado.

El NCBI, el Instituto Europeo de Bioinformática y el Instituto Conjunto del Genoma han lanzado bases de datos similares, y ya han catalogado miles de millones de formas de proteínas recién descubiertas.

Lo que Meta trae a la mesa es “un nuevo enfoque de plegamiento de proteínas que aprovecha grandes modelos de lenguaje para crear la primera vista completa de las estructuras de las proteínas en una base de datos de metagenómica a escala de cientos de millones de proteínas“.

El problema es que, si bien los avances de la genómica han revelado las secuencias de una gran cantidad de nuevas proteínas, el simple hecho de saber cuáles son esas secuencias en realidad no nos dice cómo encajan juntas en una molécula funcional y averiguarlo experimentalmente toma entre unos pocos meses a algunos años por molécula.

“El Atlas metagenómico de ESM permitirá a los científicos buscar y analizar las estructuras de las proteínas metagenómicas a escala de cientos de millones de proteínas“, escribió el equipo de investigación de Meta.

“Esto puede ayudar a los investigadores a identificar estructuras que no se han caracterizado antes, buscar relaciones evolutivas distantes y descubrir nuevas proteínas que pueden ser útiles en medicina y otras aplicaciones“.

Al igual que los idiomas, las proteínas están formadas por sus átomos constituyentes (pensamiento, palabras) que se pueden unir como se desee, pero solo formarán una molécula funcional (es decir, un pensamiento coherente) si se ensamblan en un orden específico (una oración molecular).

El sistema de Meta acelera drásticamente nuestras capacidades para descubrir la sintaxis y la gramática de la química orgánica, sin embargo, la analogía no es perfecta.

“Una secuencia de proteínas describe la estructura química de una molécula, que se pliega en una forma tridimensional compleja de acuerdo con las leyes de la física”, explicó el equipo.

“Las secuencias de proteínas contienen patrones estadísticos que transmiten información sobre la estructura plegada de la proteína”.

Específicamente, la IA de modelado a escala evolutiva de Meta trata las secuencias de genes utilizando un aprendizaje autosupervisado llamado modelado de lenguaje enmascarado.

“Entrenamos un modelo de lenguaje en las secuencias de millones de proteínas naturales“, escribió el equipo de investigación.

“Con este enfoque, el modelo debe completar correctamente los espacios en blanco en un pasaje de texto, como ‘To __ or not to__ , that is the ___’.

Entrenamos un modelo de lenguaje para llenar los espacios en blanco en una secuencia de proteínas, como ‘GL_KKE_AHY_G’ en millones de proteínas diversas”.

El “modelo de lenguaje de proteínas” resultante se llama ESM-2 y opera en 15 mil millones de parámetros, lo que lo convierte en el modelo más grande de su tipo hasta la fecha.

La “nueva capacidad de predicción de estructuras nos permitió predecir secuencias de más de 600 millones de proteínas metagenómicas en el atlas en solo dos semanas en un grupo de aproximadamente 2000 GPU”.

Fuente: Engadget