Biología Mar 15, 2024

Por qué Nvidia, Google y Microsoft apuestan miles de millones en modelos LLM de IA Generativa para biotecnología

Mientras modelos lingüísticos como ChatGPT y Gemini inauguraron una nueva era de la IA en Silicon Valley, poderosas empresas tecnológicas miran hacia el descubrimiento de fármacos y la biología digital.

Cuando el CEO de Nvidia, Jensen Huang, observó a los asistentes a la conferencia JPMorgan Healthcare celebrada en enero en San Francisco, el mayor evento del año sobre tecnología sanitaria, reconoció que se encontraba en un terreno poco habitual.

"No son mi público habitual", dijo a la sala de tecnólogos de la salud y la biología durante una charla con Recursion, una empresa de descubrimiento de fármacos en la que Nvidia invirtió 50 millones de dólares el año pasado.

Puede que el público no formara parte de su núcleo demográfico, pero espera que eso cambie. Una y otra vez, Huang pregonó la biología digital como la "próxima gran revolución" de la tecnología. A medida que el auge de la inteligencia artificial barrió Silicon Valley, Nvidia construyó un negocio de más de 60.000 millones de dólares al año y el verano pasado se convirtió en una de las pocas empresas con una capitalización bursátil de billones. En salud y biotecnología ve más oportunidades para impulsar su crecimiento.

"Se declaró que somos el próximo negocio multimillonario de Nvidia", declaró a Forbes Kimberly Powell, Vicepresidenta de Sanidad de Nvidia. Según Powell, el objetivo de la empresa es suministrar chips, infraestructura en la nube y otras herramientas a más empresas biotecnológicas.

Ahora que los grandes modelos lingüísticos como ChatGPT de OpenAI y Gemini de Google DeepMind generalizaron la IA generativa, varias de las empresas tecnológicas más potentes del mundo miran a la biotecnología como la próxima frontera de la inteligencia artificial, una frontera en la que la IA no genera poemas graciosos a partir de una indicación, sino el próximo fármaco que salvará vidas.

En Nvidia, posiblemente uno de los pilares de la revolución de la IA gracias a sus potentes chips GPU, la mayor parte de las inversiones de la división de capital riesgo Nventures de la empresa en los últimos dos años se destinaron al descubrimiento de fármacos.

En DeepMind, el modelo AlphaFold del laboratorio de IA de Google -una herramienta revolucionaria para predecir las estructuras de las proteínas- fue utilizado por investigadores académicos durante el último año para desarrollar una jeringa "molecular" para inyectar medicamentos directamente en las células, y para investigar cultivos que dependan menos de los pesticidas. El interés por la biotecnología se extiende a toda la industria: Microsoft, Amazon e incluso Salesforce también tienen proyectos de diseño de proteínas.

Aunque el uso de la IA en el descubrimiento de fármacos no es exactamente una tendencia nueva - DeepMind presentó por primera vez AlphaFold en 2018 - los ejecutivos tanto de DeepMind como de Nvidia dijeron a Forbes que este es un momento de gran avance, gracias a la confluencia de tres cosas: la masa de datos de entrenamiento ahora disponibles, la explosión de los recursos informáticos y los avances en los algoritmos de IA. "Acá tiene los tres ingredientes por primera vez", afirma Powell, "esto no era posible hace cinco años".

La IA tiene un gran potencial en el campo de la biotecnología por su enorme complejidad: baste pensar en el problema al que se dirige AlphaFold. Las proteínas son la maquinaria básica del organismo y gestionan una gran variedad de funciones. Todas estas funciones dependen de la forma tridimensional de una proteína.

Cada proteína está hecha de una secuencia de aminoácidos, y las interacciones entre esos aminoácidos y el entorno externo determinan cómo se "pliega" la proteína, lo que dicta su forma final. Ser capaz de predecir la forma de una proteína a partir de su secuencia de aminoácidos es de gran interés para las empresas biotecnológicas, que pueden utilizar estos conocimientos para diseñar todo tipo de productos, desde nuevos fármacos a cultivos mejorados o plásticos biodegradables.

Acá es donde entra en juego el aprendizaje profundo: el entrenamiento de modelos de IA en cientos de millones de secuencias de proteínas diferentes y sus estructuras subyacentes ayuda a esos modelos a descubrir patrones en biología sin necesidad de realizar necesariamente los costosos cálculos que requiere una verdadera simulación de dinámica molecular.

La simulación completa de proteínas requiere recursos computacionales tan intensos que algunas instituciones diseñaron y construido superordenadores específicos para este tipo de problemas, como el Anton 2 del Centro de Supercomputación de Pittsburgh.

El auge de la tecnología para el descubrimiento de fármacos no solo procede de los gigantes tecnológicos de la IA. Desde 2021, hubo 281 acuerdos de capital riesgo en todo el mundo en startups de descubrimiento de fármacos de IA, que representan 7.700 millones de dólares en inversión, según Pitchbook. El mayor repunte se produjo en 2021, cuando la pandemia se afianzó, y se hicieron 105 operaciones, frente a las 65 del año anterior, que se redujeron a 67 en 2023.

En un informe publicado a principios de este mes, la empresa de análisis señalaba que sigue habiendo un gran entusiasmo "por las empresas en fase inicial que integran la IA en el descubrimiento y desarrollo de fármacos". El auge de la IA generativa también despertó un mayor interés, dijo David Baker, director del Instituto de Diseño de Proteínas de la Universidad de Washington.

"Siempre fue una especie de locura marginal. Muy fuera de la corriente dominante", afirma Baker. Ahora, dijo, "todo el mundo habla de ello". Desde la fundación del Instituto de Diseño de Proteínas en 2012, más de 20 startups surgieron del programa, dijo Baker. Diez de ellas -entre ellas Archon Biosciences, que desarrolla nanomateriales para la medicina regenerativa y el cáncer, y Lila, que crea tratamientos para enfermedades fibróticas - surgieron en los últimos años, desde 2021.

En DeepMind, no fue hasta que se produjo la pandemia de Covid-19 cuando los investigadores comprendieron realmente lo que estaba en juego en sus investigaciones. Habían trabajado durante casi 5 años para desarrollar AlphaFold, y mientras estaban reentrenando el modelo para su segunda generación, el mundo entero comenzó a refugiarse en su lugar a causa de un misterioso virus. "Eso nos hizo darnos cuenta de la importancia del problema", explica a Forbes Pushmeet Kohli, vicepresidente científico de DeepMind.

El resultado del reentrenamiento de DeepMind fue AlphaFold 2, un modelo innovador capaz de predecir con tanta precisión las estructuras de las proteínas que los organizadores de CASP, un concurso mundial de investigación sobre el plegamiento de proteínas, enviaron un correo electrónico a DeepMind para preguntar si la empresa había hecho trampas de alguna manera, recuerda Kohli riendo.

El esfuerzo fue tan prometedor que el cofundador Demis Hassabis creó una empresa independiente en Alphabet basada en los avances de AlphaFold en 2021. Llamada Isomorphic Labs, se dedica al descubrimiento de fármacos y está dirigida por el propio Hassabis. Este mismo año, por ejemplo, Isomorphic Labs firmó acuerdos de investigación con Lilly y Novartis por un valor conjunto de casi 3.000 millones de dólares si se alcanzan todos los hitos, y eso sin contar las lucrativas ganancias de las posibles ventas de fármacos que se deriven de estas asociaciones.

En 2022, Nvidia presentó BioNeMo, una plataforma de IA generativa que ayuda a los desarrolladores a acelerar el entrenamiento, despliegue y escalado de grandes modelos lingüísticos para el descubrimiento de fármacos. En Nventures, la rama de capital riesgo del fabricante de chips, siete de los 19 acuerdos globales de la unidad fueron en startups de descubrimiento de fármacos de IA, incluidas Genesis Therapeutics, Terray y Generate Biosciences, la mayor de cualquier categoría de inversión.

"La industria del diseño asistido por ordenador creó la primera empresa de chips de 2 billones de dólares", dijo Powell, refiriéndose a Nvidia y su estratosférica subida del año pasado. "¿Por qué no iba a crear la misma industria del diseño asistido por ordenador la próxima empresa farmacéutica de un billón de dólares?". Y sumó: "Por eso estamos invirtiendo como lo estamos haciendo".

Otros gigantes tecnológicos tienen sus propias iniciativas de plegamiento de proteínas. El año pasado, Salesforce presentó ProGen, un modelo de inteligencia artificial para generar proteínas, y Microsoft publicó EvoDiff, un modelo similar pero de código abierto. Amazon también publicó herramientas de plegado de proteínas para SageMaker, su plataforma de aprendizaje automático de AWS. Incluso ByteDance, la empresa matriz de TikTok, parece estar contratando personal para equipos científicos y de diseño de fármacos, según informó Forbes en enero.

Sin embargo, por muy prometedor y publicitado que sea el descubrimiento de fármacos mediante IA, existen contratiempos. Todavía se tarda años en conseguir que los fármacos pasen los ensayos clínicos, y aunque la FDA aprobó hasta ahora los ensayos clínicos de más de 100 nuevos candidatos a fármacos que utilizan IA o aprendizaje automático para su desarrollo, es probable que pasen años antes de que alguno llegue al mercado.

En algunos casos, las dificultades asociadas al descubrimiento de fármacos llevaron a las grandes empresas tecnológicas a abandonar la investigación. El pasado agosto, Meta, matriz de Facebook, cerró su equipo de plegamiento de proteínas. Los investigadores de la unidad se independizaron y fundaron una empresa llamada EvolutionaryScale, según informó Forbes el año pasado. Meta no quiso hacer comentarios sobre los motivos del cierre del proyecto.

Un cuello de botella importante en el que tendrán que centrarse las empresas tecnológicas es disponer de suficientes datos de entrenamiento. Los modelos fundacionales más recientes, como GPT, dependen del aprendizaje por refuerzo, un método en el que los algoritmos pueden procesar información no etiquetada mediante ensayo y error. Esto los hace aún más dependientes de datos de alta calidad, según explicó a Forbes Anna Marie Wagner, responsable de IA de la empresa de biología sintética Ginkgo Bioworks.

El verano pasado, su empresa firmó un acuerdo estratégico de cinco años con Google Cloud para combinar su experiencia en IA con la capacidad de Ginkgo para generar rápidamente datos biológicos en sus laboratorios automatizados, que pueden volver a introducirse inmediatamente en el modelo de IA como nuevos datos de entrenamiento. Esta combinación, dijo, ayuda a optimizar mejor el proceso de descubrimiento.

Además, dijo, Gingko tiene la capacidad de validar rápidamente las predicciones del modelo. En contra de la intuición, eso hace que la peculiaridad de que los modelos de IA a veces alucinen -produciendo resultados erróneos o engañosos a una indicación- sea "una característica, no un error", porque puede dar lugar a descubrimientos interesantes que podrían haber sido inimaginables para los científicos. "Queremos que el modelo suba con las cosas locas, porque ahí es donde empezamos a ver mejoras de orden de magnitud".

Kohli explica el problema de los datos más claramente: "Basura entra, basura sale". Sin embargo, mientras la industria trabaja para solucionar esos problemas, él ya vio el impacto que la IA tuvo en la investigación biológica. "Cuando voy a las conferencias y veo el cambio en la forma en que los biólogos hacían su trabajo antes y cómo lo hacen hoy, es una transformación asombrosa", afirma.