La nueva IA de DeepMind puede predecir enfermedades genéticas
unos 10 años Anteriormente, Žiga Avsec era un estudiante de doctorado en física que se encontró tomando un curso intensivo en genómica a través de un módulo universitario sobre aprendizaje automático. Pronto empezó a trabajar en un laboratorio que estudiaba enfermedades raras, con el objetivo de encontrar la mutación genética exacta de una enfermedad mitocondrial inusual.
Avsec dice que fue un problema de «una aguja en un pajar». Había millones de posibles culpables acechando en el código genético: mutaciones del ADN que podrían destruir la biología de una persona. De particular interés fueron las llamadas variantes sin sentido: cambios de una sola letra en el código genético que conducen a diferentes aminoácidos en las proteínas. Los aminoácidos son los componentes básicos de las proteínas, y las proteínas son los componentes básicos de todo lo demás en el cuerpo, por lo que incluso los cambios pequeños pueden tener efectos grandes y de largo alcance.
Hay 71 millones de posibles variantes sin sentido en el genoma humano, y una persona promedio porta más de 9.000 de ellas. La mayoría son inofensivos, pero algunos están implicados en enfermedades genéticas como la anemia falciforme y la fibrosis quística, así como en afecciones más complejas como la diabetes tipo 2, que puede ser causada por una combinación de pequeños cambios genéticos. Avsec empezó a preguntar a sus colegas: «¿Cómo sabemos cuáles son realmente peligrosos?» Respuesta: «Bueno, en general, no lo hacemos».
Sólo el 2 por ciento de los 4 millones de errores encontrados en humanos han sido clasificados como patógenos o benignos, después de años de investigaciones minuciosas y costosas. Estudiar el efecto de un solo tipo sin sentido puede llevar meses.
Hoy, Google DeepMind, donde Avsec es ahora científico investigador, lanzó una herramienta que podría acelerar ese proceso exponencialmente. AlphaMissense es un modelo de aprendizaje automático que puede analizar malformaciones y predecir la probabilidad de enfermedades con un 90 por ciento de precisión, mejor que las herramientas existentes.
Se basa en AlphaFold, el modelo innovador de DeepMind que predijo la estructura de millones de proteínas a partir de su composición de aminoácidos, pero no funciona de la misma manera. En lugar de hacer predicciones sobre la estructura de las proteínas, AlphaMissense funciona como un modelo de lenguaje grande como ChatGPT de OpenAI.
Ha sido entrenado en el lenguaje de la biología humana (y de los primates), por lo que sabe cómo debería ser la secuencia normal de aminoácidos en las proteínas. Cuando se presenta en un orden desordenado, se puede notar como una palabra incoherente en una oración. «Es un modelo de lenguaje pero entrenado en secuencias de proteínas», dice Jun Cheng, quien, junto con Avsec, es coautor principal de un artículo publicado hoy. Ciencia que Alphamisense proclama al mundo. «Si sustituimos una palabra en una oración en inglés, una persona que sepa inglés puede ver inmediatamente si estas sustituciones cambian el significado de la oración».
Pushmeet Kohli, vicepresidente de investigación de DeepMind, utiliza la analogía de un libro de recetas. Si a AlphaFold le importa exactamente cómo se agregan los componentes, AlphaMisense predice lo que puede suceder si usa el componente incorrecto por completo.