El articulo explora el ambicioso proyecto de crear células virtuales utilizando la inteligencia artificial (IA) para simular la complejidad biológica de las células vivas. Los investigadores están migrando de simulaciones basadas en ecuaciones a modelos impulsados por IA, como TranscriptFormer y Geneformer, inspirados por el éxito de grandes modelos de lenguaje como ChatGPT. Estos modelos de IA prometen acelerar el descubrimiento de fármacos, personalizar tratamientos médicos y proporcionar una comprensión integrada del conocimiento biológico al procesar vastas cantidades de datos genéticos. No obstante, el campo enfrenta desafíos significativos, como la limitación de datos, la necesidad de incorporar información más allá de la actividad genética y la dificultad para evaluar y comparar la eficacia predictiva de los modelos actuales, un problema que el nuevo Desafío de la Célula Virtual busca abordar.Introducción: El Universo Dentro de una Célula

Imagina un universo microscópico contenido en un solo punto. Una célula humana alberga unos 42 millones de proteínas, junto con una vasta colección de lípidos, carbohidratos y ácidos nucleicos. Su interior es un «laboratorio químico frenético», una maravilla de la organización con una arquitectura tan intrincada que hace que las catedrales barrocas parezcan simples. Este universo es tan complejo que supera la capacidad de la mente humana para comprenderlo por completo.
Entonces, ¿cómo podemos empezar a descifrar algo tan inmensamente complejo? Cada vez más, los científicos creen que la respuesta podría estar en la inteligencia artificial (IA), una herramienta con la capacidad de procesar información a una escala que nosotros no podemos. Este es el relato de cómo estamos tratando de construir una célula virtual, un viaje que, curiosamente, no comenzó con la IA, sino con el lenguaje universal de las matemáticas.
——————————————————————————–
Los Primeros Planos: Células Construidas con Ecuaciones
Hace aproximadamente 25 años, los científicos se embarcaron en el primer intento de construir células virtuales. Su enfoque se basaba en el poder de la computación, utilizando enormes conjuntos de ecuaciones matemáticas para simular procesos celulares fundamentales como el metabolismo, la síntesis de proteínas y la duplicación del ADN.
Hito de 2012: El Primer Modelo de Célula Completa Un momento histórico llegó en 2012, cuando Jonathan Karr y sus colegas del laboratorio de Markus Covert en la Universidad de Stanford presentaron el primer modelo computacional de una célula completa. Su sujeto fue la bacteria Mycoplasma genitalium, elegida específicamente por tener el genoma más pequeño conocido en ese momento, con poco más de 500 genes. Este modelo pionero podía simular el metabolismo de la célula calculando las concentraciones de más de 700 moléculas a través de 1,100 reacciones químicas.
Hito de 2022: Un Salto a la Tercera Dimensión Una década después, la biofísica Zan Luthey-Schulten y su equipo llevaron el concepto un paso más allá. Presentaron un modelo 3D aún más sofisticado de una célula bacteriana mínima. Al incorporar datos de microscopía de células reales, lograron un nivel de realismo sin precedentes. Sin embargo, este detalle tuvo un alto costo computacional: simular apenas 20 minutos de la vida de la célula requería entre 8 y 10 horas de procesamiento en supercomputadoras.
Estos modelos basados en ecuaciones representaron un avance monumental, pero también tenían limitaciones significativas.
- Logro Principal: Su mayor fortaleza era la capacidad de predecir la dinámica a corto plazo. Como señala Karr, «es donde estos modelos realmente destacan», permitiendo a los científicos simular los cambios en las concentraciones de moléculas segundo a segundo.
- Limitaciones Críticas: A pesar de su poder, estos modelos adolecían de dos debilidades fundamentales:
- Solo podían seguir las reglas biológicas que sus creadores habían programado explícitamente en ellos.
- Como señala el biólogo computacional Fabian Theis, «han fracasado por completo» en predecir los efectos de cambios más complejos, como el silenciamiento de genes.
Estas limitaciones dejaron claro que se necesitaba un enfoque radicalmente nuevo, uno inspirado por una revolución que estaba ocurriendo en un campo completamente diferente de la IA.
——————————————————————————–
Un Nuevo Paradigma: La Revolución de la IA y los Modelos Fundamentales
El impactante debut de ChatGPT a finales de 2022 inspiró a toda una nueva generación de creadores de células virtuales. Como afirma Kasia Kedzierska, investigadora de IA, «la gente anhela un hito como este para la biología». Esto marcó el comienzo de un cambio de paradigma.
La diferencia entre los modelos antiguos y los nuevos modelos de IA es fundamental. Pensemos en una analogía:
- Los modelos basados en ecuaciones son como un cocinero que sigue una receta al pie de la letra. Solo puede hacer lo que está escrito en las instrucciones.
- Los modelos de IA son como un chef que aprende a cocinar probando miles de ingredientes (datos). No sigue una receta; aprende por sí mismo los principios de la cocina para poder crear platos nuevos e improvisar.
Estos «ingredientes» para la IA provienen de un «torrente de nuevos datos», especialmente de colecciones masivas como CELLxGENE de la Iniciativa Chan Zuckerberg (CZI), que contiene datos de más de 35 millones de células.
Este nuevo enfoque ha dado lugar a los «modelos fundamentales» para la biología. Al igual que los grandes modelos de lenguaje como ChatGPT, están diseñados para aprender principios generales a partir de vastos conjuntos de datos, lo que les permite analizar una amplia gama de procesos biológicos sin necesidad de ser reentrenados desde cero para cada tarea. La visión final, según Fabian Theis, es crear «un modelo fundamental que los une a todos».
Conozcamos a dos de los pioneros más importantes que están liderando esta nueva era.
——————————————————————————–
Conoce a los Pioneros de la IA: Geneformer y TranscriptFormer
Dos modelos destacan como ejemplos tempranos del potencial de este nuevo enfoque, cada uno con una estrategia y fortalezas únicas.
Geneformer: Profundidad en la Biología Humana Geneformer fue uno de los primeros modelos celulares fundamentales. Fue entrenado con datos de actividad genética de casi 30 millones de células humanas. Su principal habilidad es inferir cómo interactúan los genes y predecir qué sucede cuando se manipula su actividad.
El logro más impresionante de Geneformer fue su aplicación a la miocardiopatía, una enfermedad que debilita el músculo cardíaco. El modelo identificó genes cuya desactivación podría normalizar la función de las células enfermas. Crucialmente, el equipo fue un paso más allá: validó experimentalmente sus predicciones utilizando la edición genética CRISPR en células de laboratorio. Como señala la investigadora Christina Theodoris, este enfoque podría «acelerar el descubrimiento de fármacos».
TranscriptFormer: Amplitud a Través de la Evolución Mientras Geneformer se centra en la profundidad humana, TranscriptFormer destaca por su «amplitud evolutiva». Fue entrenado con datos de 112 millones de células de 12 especies diferentes, desde humanos y ratones hasta esponjas y parásitos de la malaria.
Esta diversidad en su entrenamiento le confirió una capacidad notable conocida como «aprendizaje sin ejemplos» (zero-shot learning). Sin ningún entrenamiento adicional, TranscriptFormer pudo clasificar con éxito tipos de células de especies que nunca había visto, e incluso distinguir células pulmonares sanas de aquellas infectadas por el SARS-CoV-2.
Para facilitar la comprensión, aquí hay una comparación directa:
| Característica | Geneformer | TranscriptFormer |
| Datos de Entrenamiento | Casi 30 millones de células humanas. | 112 millones de células de 12 especies. |
| Logro Clave | Identificó y validó experimentalmente objetivos genéticos para la miocardiopatía. | Demostró «aprendizaje sin ejemplos», clasificando células de nuevas especies sin reentrenamiento. |
| Enfoque | Profundidad en la biología humana. | Amplitud a través de la evolución. |
A pesar de este inmenso potencial, el camino hacia una célula virtual verdaderamente funcional está lleno de obstáculos significativos.
——————————————————————————–
Un Vistazo a la Realidad: Los Desafíos en el Camino
A pesar del entusiasmo, la comunidad científica enfrenta tres desafíos clave que deben superarse para que estos modelos alcancen su máximo potencial.
El Problema de los Datos «La limitación de datos es un obstáculo enorme», afirma Jonathan Karr. Aunque existen colecciones masivas, el campo carece de un repositorio centralizado y estandarizado, similar al Protein Data Bank (PDB) que fue tan crucial para el éxito de AlphaFold en la predicción del plegamiento de proteínas. Muchos datos celulares no se almacenan en formatos accesibles, lo que limita el «alimento» disponible para entrenar modelos más potentes.
El Problema de la Evaluación ¿Cómo medimos si un modelo es realmente bueno? Existe un debate sobre si los modelos deben ser probados con o sin «ajuste fino» (entrenamiento adicional para tareas específicas). En estudios que evaluaron el rendimiento sin este ajuste, los resultados fueron decepcionantes. Por ejemplo, una investigación liderada por Alex Lu encontró que métodos más simples superaron a modelos fundamentales como Geneformer en ciertas tareas de clasificación.
El Problema del Rendimiento Incluso con ajuste fino, el rendimiento no siempre es el esperado. Un estudio de Constantin Ahlmann-Eltze reveló que una fórmula matemática básica era más precisa que cinco modelos de IA de última generación para predecir la respuesta de los genes. Su sorpresa fue evidente: «Según las publicaciones, todos parecían muy buenos».
Lejos de rendirse, la comunidad científica se está organizando de forma proactiva para enfrentar estos desafíos de frente.
——————————————————————————–
Trazando el Futuro: Competición, Colaboración y Optimismo
Para acelerar el progreso, los líderes del campo han lanzado el «Desafío de la Célula Virtual», una competición anual diseñada para descubrir qué enfoques funcionan y cuáles no. En su primera edición, más de 1,000 equipos compiten para predecir con precisión los efectos del silenciamiento de genes en células madre humanas. Con patrocinadores como Nvidia ofreciendo premios, incluyendo $100,000 en efectivo y tiempo de GPU para el equipo ganador, la iniciativa busca impulsar la innovación de la misma manera que competiciones anteriores lo hicieron para el plegamiento de proteínas.
Paralelamente, se están desarrollando herramientas para estandarizar la evaluación, como los benchmarks publicados por CZI, que permiten a los investigadores comparar diferentes modelos bajo criterios estandarizados.
El camino es difícil, pero el sentimiento general es de un optimismo fundamentado. Las críticas y los fracasos no se ven como un callejón sin salida, sino como una guía para el futuro.
- Como dice Kasia Kedzierska: «Yo no descartaría estos modelos… Sus fallos nos aportan mucha información«.
Esta perspectiva es la que impulsa al campo hacia adelante, con la convicción de que cada intento, exitoso o no, es un paso crucial en el aprendizaje. Quizás la visión más poderosa sobre el estado actual de la tecnología proviene de Theofanis Karaletsos, uno de los creadores de TranscriptFormer, quien, al reflexionar sobre su creación, declaró:
«Es el modelo más tonto que jamás construiremos».
Esta frase encapsula perfectamente el espíritu del campo: los logros de hoy, por impresionantes que parezcan, son solo el primer destello del verdadero potencial de la IA para, finalmente, comprender el universo dentro de cada célula.
fuente: revista nature 30/11/2025
te invito a leer mis libros sobre educacion, disponibles en : autoreseditores.com

Descubre más desde La Red Cientifica
Suscríbete y recibe las últimas entradas en tu correo electrónico.

