Estudio: MedVersa: Un modelo generalista para diversas tareas de imagenología médica. Crédito de la imagen: Thitisan / Shutterstock
MedVersa se muestra prometedor en múltiples tareas de imagenología.
por Hugo Francisco de Souza | News Medical Life Sciences
Los investigadores desarrollaron MedVersa, un modelo generalista de IA multimodal entrenado en decenas de millones de instancias de imágenes médicas para realizar diversas tareas radiológicas en un único marco. El modelo igualó o superó a los sistemas de IA especializados en varios parámetros y generó informes radiológicos comparables a los informes humanos en muchos casos, mejorando al mismo tiempo la eficiencia de los informes.
- Antecedentes: Fragmentación de las herramientas de inteligencia artificial médica
- Desarrollo del modelo de IA multimodal de MedVersa
- Antecedentes: Fragmentación de las herramientas de inteligencia artificial médica
- Desarrollo del modelo de IA multimodal de MedVersa
- Marco de evaluación y pruebas comparativas
- Resultados del estudio: Rendimiento en las tareas de imágenes
- Comparación con los informes de radiólogos humanos
- Conclusiones: Hacia asistentes clínicos de IA unificados
- Acerca del autor
Un nuevo y masivo sistema de inteligencia artificial multimodal entrenado con decenas de millones de imágenes médicas podría ayudar a unificar herramientas de radiología fragmentadas y ayudar a los médicos a interpretar exploraciones y generar informes de manera más eficiente.
En un estudio reciente publicado en la revista NEJM AI, investigadores presentaron “MedVersa”, un modelo generalista de inteligencia artificial ( IA ) capaz de procesar e interpretar una amplia gama de modalidades de imágenes médicas y tipos de tareas. A diferencia de los modelos de IA tradicionales , entrenados para tareas específicas y limitadas, MedVersa se basó en decenas de millones de instancias de imágenes médicas, lo que le permite detectar patologías y generar informes dentro de un marco analítico unificado.
Resulta alentador que, al comparar el rendimiento de MedVersa con el de un radiólogo humano en una evaluación ciega de informes de radiografías de tórax, el modelo generara informes clínicamente comparables a los escritos por humanos en muchos casos, especialmente en exploraciones con hallazgos normales, reduciendo significativamente el tiempo que los radiólogos dedican a documentar sus hallazgos. En conjunto, estos resultados posicionan a MedVersa como un paso prometedor hacia el desarrollo de una nueva generación de modelos de base unificados y multimodales que podrían ayudar a consolidar el ecosistema actualmente fragmentado de herramientas de IA que se utilizan en entornos de atención clínica.
Antecedentes: Fragmentación de las herramientas de inteligencia artificial médica
Si bien los recientes avances en potencia computacional y lógica de modelos de inteligencia artificial ( IA ) han permitido la aprobación de varias de estas herramientas para su uso en el ámbito médico, su uso suele ser fragmentado. Los modelos entrenados con conjuntos de datos de rayos X pueden detectar con precisión la neumonía en radiografías de tórax de pacientes, pero no pueden utilizar datos de resonancia magnética o ecografía para la evaluación integral del paciente.
Estos modelos “especializados” suelen tener dificultades para adaptarse a flujos de trabajo clínicos complejos donde el diagnóstico de un paciente implica múltiples tipos de datos. Los biólogos computacionales buscaron abordar esta discrepancia introduciendo el concepto de Inteligencia Artificial Médica Generalista ( IAMG ).
Su objetivo era crear un “modelo base” (similar a la tecnología “agentic” adoptada por ChatGPT, Google Gemini y otros grandes modelos de lenguaje [ LLM ]) capaz de procesar entradas y salidas multimodales. Desafortunadamente, los intentos previos de materializar este concepto se centraron principalmente en entradas basadas en texto y resultaron incapaces de dilucidar las complejas tareas visuales indispensables en radiología .
Desarrollo del modelo de IA multimodal de MedVersa
El presente estudio se propuso abordar esta brecha funcional mediante el diseño de “MedVersa”, un modelo de IA generalista centrado en radiología , capaz de procesar, anotar, diagnosticar, informar y documentar datos de imágenes clínicas multimodales. El modelo se entrenó con “MedInterp”, un conjunto de datos masivo que agrega 91 conjuntos de datos públicos que, en conjunto, comprenden más de 29 millones de casos médicos, incluyendo imágenes, anotaciones de cuadros delimitadores, máscaras de segmentación, subtítulos y otras señales de supervisión visual-lingüística utilizadas en diversas tareas de imagenología.En un estudio reciente publicado en la revista NEJM AI , investigadores presentaron “MedVersa”, un modelo generalista de inteligencia artificial ( IA ) capaz de procesar e interpretar una amplia gama de modalidades de imágenes médicas y tipos de tareas. A diferencia de los modelos de IA tradicionales , entrenados para tareas específicas y limitadas, MedVersa se basó en decenas de millones de instancias de imágenes médicas, lo que le permite detectar patologías y generar informes dentro de un marco analítico unificado.
Resulta alentador que, al comparar el rendimiento de MedVersa con el de un radiólogo humano en una evaluación ciega de informes de radiografías de tórax, el modelo generara informes clínicamente comparables a los escritos por humanos en muchos casos, especialmente en exploraciones con hallazgos normales, reduciendo significativamente el tiempo que los radiólogos dedican a documentar sus hallazgos. En conjunto, estos resultados posicionan a MedVersa como un paso prometedor hacia el desarrollo de una nueva generación de modelos de base unificados y multimodales que podrían ayudar a consolidar el ecosistema actualmente fragmentado de herramientas de IA que se utilizan en entornos de atención clínica.
Antecedentes: Fragmentación de las herramientas de inteligencia artificial médica
Si bien los recientes avances en potencia computacional y lógica de modelos de inteligencia artificial ( IA ) han permitido la aprobación de varias de estas herramientas para su uso en el ámbito médico, su uso suele ser fragmentado. Los modelos entrenados con conjuntos de datos de rayos X pueden detectar con precisión la neumonía en radiografías de tórax de pacientes, pero no pueden utilizar datos de resonancia magnética o ecografía para la evaluación integral del paciente.
Estos modelos “especializados” suelen tener dificultades para adaptarse a flujos de trabajo clínicos complejos donde el diagnóstico de un paciente implica múltiples tipos de datos. Los biólogos computacionales buscaron abordar esta discrepancia introduciendo el concepto de Inteligencia Artificial Médica Generalista ( IAMG ).
Su objetivo era crear un “modelo base” (similar a la tecnología “agentic” adoptada por ChatGPT, Google Gemini y otros grandes modelos de lenguaje [ LLM ]) capaz de procesar entradas y salidas multimodales. Desafortunadamente, los intentos previos de materializar este concepto se centraron principalmente en entradas basadas en texto y resultaron incapaces de dilucidar las complejas tareas visuales indispensables en radiología .
Desarrollo del modelo de IA multimodal de MedVersa
El presente estudio se propuso abordar esta brecha funcional mediante el diseño de “MedVersa”, un modelo de IA generalista centrado en radiología , capaz de procesar, anotar, diagnosticar, informar y documentar datos de imágenes clínicas multimodales. El modelo se entrenó con “MedInterp”, un conjunto de datos masivo que agrega 91 conjuntos de datos públicos que, en conjunto, comprenden más de 29 millones de casos médicos, incluyendo imágenes, anotaciones de cuadros delimitadores, máscaras de segmentación, subtítulos y otras señales de supervisión visual-lingüística utilizadas en diversas tareas de imagenología.
El modelo presenta una arquitectura única que utiliza un LLM entrenado como “orquestador”, evaluando los requisitos de los usuarios (p. ej., “¿Dónde está el tumor del paciente?”) y seleccionando dinámicamente los módulos de visión internos adecuados dentro del marco de MedVersa para la ejecución de solicitudes. A diferencia de las GMAI anteriores , que se basaban principalmente en texto, MedVersa se diseñó para generar una respuesta de texto o implementar “módulos de visión” especializados para la detección o segmentación de objetos.
MedVersa puede procesar simultáneamente datos tan diversos como radiografías 2D, tomografías computarizadas y resonancias magnéticas 3D , e historiales clínicos de pacientes. Tras el entrenamiento con modelos, el rendimiento de MedVersa se validó frente a dos competidores tradicionales en nueve tareas de imagen distintas: 1. Modelos de IA especializados y aprobados ; 2. Radiólogos certificados (n = 10).
Marco de evaluación y pruebas comparativas
La evaluación del rendimiento requirió que el experto (un modelo de IA o un radiólogo humano) revisara los informes generados por humanos, ChatGPT-4o y MedVersa para radiografías de tórax. Fundamentalmente, los expertos desconocían la fuente de los datos. El rendimiento se evaluó en función de la precisión clínica de los resultados del experto y la eficiencia de la evaluación (tiempo necesario para completar la evaluación y generar un informe).
Resultados del estudio: Rendimiento en las tareas de imágenes
Los resultados del estudio revelaron que la arquitectura GMAI de MedVersa era competitiva y con frecuencia superaba los modelos especializados “estándar de oro” tradicionales en muchas métricas de evaluación de segmentación y detección de objetos.
Al evaluar la generación de informes de modelos, en la prueba BLEU-4 (cuanto más alto, mejor; mide la similitud del texto), MedVersa obtuvo una puntuación de 17,8, en comparación con los 14,2 de MAIRA, los 12,0 de BiomedGPT y los 11,5 de Med-PaLM M. En la prueba RadCliQ (cuanto más bajo, mejor; mide la desviación de los informes clínicos en humanos), MedVersa obtuvo una puntuación de 2,71, frente a los 3,10 de MAIRA y los 3,25 de BiomedGPT. Si bien Med-PaLM M obtuvo una puntuación RadCliQ ligeramente mejor (2,67), esta fue estadísticamente indistinguible de la de MedVersa.
Comparación con los informes de radiólogos humanos
Al compararlos con expertos humanos, los investigadores descubrieron que los informes de MedVersa eran clínicamente comparables a los informes escritos por personas en el 64 % de los casos. En el caso de las exploraciones con hallazgos normales, esta equivalencia aumentó al 91 %. Sin embargo, en las exploraciones con hallazgos anormales que involucraban patologías más complejas, la equivalencia fue considerablemente menor, y los radiólogos revisores preferían con mayor frecuencia los informes escritos por personas.
Los investigadores también demostraron que usar MedVersa como asistente permitió a los médicos completar los flujos de trabajo de redacción de informes con mayor rapidez. Redujo el tiempo de redacción de informes y, fundamentalmente, resultó en menos discrepancias “urgentes” (errores que requieren atención inmediata) que los informes elaborados con GPT-4o (una reducción del 20 % en el intervalo de informe de 5 a 10 minutos).
Conclusiones: Hacia asistentes clínicos de IA unificados
El presente estudio revela que MedVersa representa un paso importante hacia el desarrollo de un asistente clínico unificado, en lugar de depender de herramientas de IA tradicionalmente fragmentadas. Su arquitectura, que aprovecha un LLM para orquestar herramientas de visión especializadas, permitió a este novedoso modelo alcanzar un rendimiento comparable o incluso superior al de los modelos de IA especializados en diversas tareas, a la vez que agilizó y aceleró significativamente los flujos de trabajo de los radiólogos humanos expertos.
Sin embargo, el estudio enfatiza que, si bien MedVersa destacó en casos rutinarios, los radiólogos certificados siguen siendo los preferidos para casos complejos y anormales con patologías complejas, lo que subraya la importancia de la supervisión experta. Los autores también señalan que la generalización más amplia entre las modalidades de imagen sigue siendo un desafío constante, ya que varios conjuntos de datos no relacionados con radiografías de tórax del estudio se centraron principalmente en tareas de segmentación en lugar de una interpretación diagnóstica completa.
En consecuencia, si bien el presente estudio valida MedVersa como una poderosa prueba de concepto, los futuros modelos GMAI deberían entrenarse con conjuntos de datos ampliados que incluyan más modalidades (por ejemplo, información genética y registros médicos electrónicos [ EHR ]) para aprovechar al máximo el potencial de la atención al paciente asistida por IA y mediada por expertos humanos.Referencia de la revista:
- Zhou, H.-Y., Acosta, JN, Adithan, S., Datta, S., Topol, EJ y Rajpurkar, P. (2026). MedVersa: Un modelo generalista para diversas tareas de imagenología médica. NEJM AI. DOI – 10.1056/aioa2500595. https://ai.nejm.org/doi/full/10.1056/AIoa2500595
Acerca del autor
Hugo Francisco de Souza
Hugo Francisco de Souza es un escritor científico radicado en Bangalore, Karnataka, India. Sus pasiones académicas son la biogeografía, la biología evolutiva y la herpetología. Actualmente cursa su doctorado en el Centro de Ciencias Ecológicas del Instituto Indio de Ciencias, donde estudia el origen, la dispersión y la especiación de las serpientes asociadas a humedales. Hugo ha recibido, entre otras, la beca DST-INSPIRE por su investigación doctoral y la Medalla de Oro de la Universidad de Pondicherry por la excelencia académica durante su maestría. Su investigación se ha publicado en revistas científicas de alto impacto revisadas por pares, como PLOS Neglected Tropical Diseases y Systematic Biology. En su tiempo libre, Hugo disfruta de una gran cantidad de anime y manga, compone y crea música con su bajo, recorre senderos en su bicicleta de montaña, juega videojuegos (él prefiere el término “gaming”) o experimenta con todo tipo de tecnología.