Estudio: Rendimiento de los algoritmos de predicción del riesgo de cáncer de mama en los sistemas de mamografía del programa de cribado del Reino Unido. Crédito de la imagen: CameraCraft / Shutterstock

Un gran estudio de detección del NHS muestra que la inteligencia artificial puede detectar señales sutiles en mamografías “normales” que revelan qué mujeres tienen más probabilidades de desarrollar cánceres de intervalo agresivos años antes de que aparezcan.

por Hugo Francisco de Souza | Revisado por Susha Cheriyedath, M.Sc.

En un estudio reciente publicado en la revista  npj Digital Medicine , investigadores realizaron un estudio de validación retrospectivo a gran escala (n = 112 621) para evaluar el rendimiento de cuatro algoritmos de aprendizaje profundo ( DL ) de última generación para predecir cánceres de intervalo. Estos cánceres representan aproximadamente el 30 % de los cánceres diagnosticados después de una mamografía de cribado negativa, pero antes del siguiente examen de cribado programado en los programas de cribado, y representan una brecha diagnóstica crítica en los enfoques actuales de cribado basados ​​en mamografías.

Los hallazgos del estudio revelaron el algoritmo de mayor rendimiento en esta comparación de cuatro modelos ( AUC de cáncer de intervalo = 0,77). Este algoritmo, de alto rendimiento, identificó aproximadamente el 27,5 % de los cánceres de intervalo en la cohorte del estudio, al señalar el 4 % superior de imágenes de mamografía de detección “normales” (negativas) como las de mayor riesgo.

Si bien el estudio señaló que el rendimiento del modelo variaba ligeramente entre las máquinas específicas utilizadas para producir imágenes de mamografías y que un algoritmo mostraba diferencias estadísticamente significativas entre los sistemas, estos hallazgos sugieren que las herramientas de DL podrían potencialmente respaldar estrategias de detección de cáncer de mama estratificadas por riesgo , aunque se requeriría una evaluación clínica prospectiva antes de la implementación.

Antecedentes: El desafío de los cánceres de mama de intervalo

Durante décadas, las recomendaciones para la detección del cáncer de mama han implicado que las mujeres se realicen una mamografía cada pocos años (p. ej., cada 3 años en el Reino Unido ) . Sin embargo, cada vez hay más evidencia que sugiere que, si bien estas pruebas periódicas son necesarias y eficaces para detectar la mayoría de los cánceres de mama , no identifican los “cánceres de intervalo”, es decir, los cánceres diagnosticados después de una mamografía de detección negativa, pero antes de la siguiente prueba programada.

Estos cánceres “ocultos”, que se observa que se desarrollan o se vuelven clínicamente aparentes en los períodos entre los programas de detección, a menudo son significativamente más agresivos que los detectados en las mamografías de rutina, lo que conduce a un peor pronóstico y resultados clínicos, incluida la muerte.

Los enfoques tradicionales para abordar los cánceres de intervalo han implicado que los médicos intenten predecir el riesgo individual mediante evaluaciones genéticas (como puntajes de riesgo poligénico, que no se implementan rutinariamente en la mayoría de los programas de detección poblacional) y evaluaciones de antecedentes familiares (a menudo incompletas).

Sin embargo, los recientes avances en algoritmos de aprendizaje profundo ( DL ) han llevado a los investigadores a plantear la hipótesis de que estos modelos de inteligencia artificial ( IA ), entrenados con millones de imágenes de mamografías, pueden ser capaces de reconocer patrones de imágenes sutiles y características de los tejidos mamarios que los radiólogos humanos podrían pasar por alto.

Lamentablemente, dada la gran cantidad de modelos de aprendizaje automático comerciales y académicos actualmente disponibles, los médicos aún no saben qué modelo elegir y si estas herramientas pueden funcionar lo suficientemente bien como para ser incluidas en la atención personalizada.

Objetivo del estudio y comparación de modelos

El presente estudio tuvo como objetivo abordar esta brecha de conocimiento mediante la realización de una comparación directa del desempeño predictivo del cáncer de mama de cuatro de los modelos de aprendizaje automático más avanzados de la actualidad : Mirai (MIT), iCAD ProFound AI Risk (un modelo disponible comercialmente), Transpara Risk (otra herramienta de aprendizaje automático disponible comercialmente ) y el modelo de riesgo de Google Health.

Conjunto de datos de validación del programa de detección del NHS del Reino Unido

Estos modelos se suministraron con un extenso conjunto de datos de validación retrospectiva del Servicio Nacional de Salud ( NHS ) del Reino Unido . El conjunto de datos comprendía mamografías de cribado de alta resolución «negativas» (sin cáncer) (n = 112.621) recopiladas entre 2014 y 2017 en dos centros de cribado distintos del NHS .

El rendimiento del modelo se validó mediante el seguimiento de los participantes durante cinco años para observar qué mujeres finalmente desarrollaron cánceres de mama (aproximadamente 1.225 cánceres durante el período de seguimiento), incluidos cánceres de intervalo.

Evaluación en distintas plataformas de hardware de mamografía

Para evaluar la generalización del rendimiento del algoritmo en diferentes plataformas de hardware de mamografía, los modelos DL se entrenaron en imágenes de mamografía de diferentes ecosistemas de hardware, específicamente máquinas de Philips y GE.

Rendimiento predictivo de los modelos de aprendizaje profundo

Los resultados del estudio revelaron que el algoritmo académico Mirai demostró consistentemente el mayor poder predictivo (Área Bajo la Curva [ AUC ] = 0,72; p < 0,001). Si bien iCAD ( AUC = 0,70), Google ( AUC = 0,68) y Transpara ( AUC = 0,65) obtuvieron puntuaciones más bajas, su rendimiento predictivo fue notable, dado que las mamografías de entrada se habían interpretado previamente como “normales” durante el cribado de rutina.

Identificación de pacientes con alto riesgo de cánceres de intervalo

Las observaciones del estudio indicaron que estos modelos podrían identificar futuros cánceres de intervalo a partir de exámenes de cribado inicialmente interpretados como negativos ( AUC de cáncer de intervalo de Mirai = 0,77). Cuando los investigadores analizaron al 4 % superior de mujeres identificadas por Mirai como de “alto riesgo”, aproximadamente el 27,5 % de todos los cánceres de intervalo de la cohorte se presentaron en este grupo de alto riesgo durante el seguimiento.

Se observó que ampliar este grupo de alto riesgo al 14% superior de mujeres duplicaba el rendimiento de detección de cáncer de intervalo, capturando aproximadamente el 50,3% de todos los cánceres de intervalo futuros en la cohorte.

Rendimiento entre los fabricantes de máquinas de mamografía

El estudio también evaluó si el rendimiento del algoritmo difería entre los fabricantes de mamógrafos. Los investigadores descubrieron que tres de los cuatro modelos evaluados tuvieron un rendimiento estadísticamente similar en imágenes generadas por equipos Philips y GE. Si bien el modelo Transpara tuvo un mejor rendimiento en imágenes generadas por equipos GE que en las generadas por equipos Philips, la diferencia fue relativamente modesta ( AUC = 0,69 frente a 0,62).

Los investigadores también destacan varias limitaciones, como la exclusión de mamografías con implantes o vistas de imagen no estandarizadas, datos étnicos incompletos y la posibilidad de que los resultados no sean totalmente generalizables a los sistemas de mamografía de otros proveedores importantes. Los autores también señalan que la validación retrospectiva podría subestimar la posible utilidad clínica, ya que algunos cánceres podrían detectarse mediante técnicas de imagen adicionales en lugar de únicamente por la presentación sintomática.

Conclusiones: Hacia una detección del cáncer de mama estratificada por riesgo

El presente estudio proporciona evidencia que sugiere que los modelos de DL pueden identificar señales de imagen previamente desconocidas en mamografías estándar para predecir el riesgo futuro de cáncer. Modelos como Mirai del MIT demostraron identificar y detectar una proporción significativa de cánceres de intervalo en un pequeño grupo de mujeres de alto riesgo.

Los trabajos futuros deberían apuntar a investigar estos resultados en ensayos clínicos prospectivos y entornos de detección del mundo real antes de que dichas herramientas puedan integrarse en protocolos de detección personalizados.

Referencia de la revista:

  • Rothwell, J., et al. (2026). Rendimiento de los algoritmos de predicción del riesgo de cáncer de mama en sistemas de mamografía en el programa de cribado del Reino Unido . npj Digital Medicine . DOI, 10.1038/s41746-026-02507-7, https://www.nature.com/articles/s41746-026-02507-7

Fuente: https://www.news-medical.net/news/20260309/AI-model-flags-hidden-breast-cancers-years-before-diagnosis-in-routine-mammograms.aspx

Deja una respuesta