Todos los hogares parecen tener ese cajón lleno de pertenencias. Cuando necesitas algo, sabes que está ahí, pero aún así te lleva horas revisar el desorden que deberías haber tirado hace años. La enorme cantidad de datos almacenados en biobancos en constante expansión es un poco como “ese cajón”, y dificulta cada vez más encontrar datos de buena calidad de forma constante.
por Soroosh Afyouni – Jefe de ciencia de datos de salud en bioXcelerate AI
En la era digital, la información disponible es abundante, y organizaciones de todo tipo se esfuerzan por utilizarla. Esto es especialmente cierto ahora, con la tecnología avanzada que permite a las empresas analizar grandes cantidades de datos de una forma que, hasta hace poco, era simplemente imposible.
En las últimas décadas, las autoridades sanitarias de todo el mundo han establecido grandes biobancos que incluyen historiales médicos de pacientes, datos de ensayos clínicos e información genética. Si bien estos biobancos son de inmenso valor, la calidad de los datos suele ser inconsistente y se presentan en diversas formas y formatos, lo que dificulta realizar comparaciones fiables. Intentar analizarlos en paralelo es como comparar peras con manzanas: simplemente no funciona.
Esta inconsistencia se está convirtiendo en un problema importante. No solo dificulta la colaboración, sino que también limita el potencial de herramientas potentes como la IA y el aprendizaje automático para generar información valiosa. Por eso es importante desarrollar una estrategia para la gestión global de datos de salud con el fin de optimizar el proceso de desarrollo de fármacos y, a su vez, generar resultados más efectivos para los pacientes.
La era del ‘Big Data’ ha llegado
Es innegable que los datos ofrecen inmensas oportunidades para transformar diversos sectores, especialmente el sanitario. Sin embargo, la mala calidad de los datos puede dificultar su uso eficaz. Según un estudio de Sun et al. (2022) 1 , hasta el 50 % de los ensayos clínicos fracasan debido a la falta de eficacia clínica . En resumen, si los conocimientos iniciales no se basan en evidencia sólida basada en datos, es improbable que el tratamiento tenga la eficacia óptima.
A medida que los avances tecnológicos, como la IA, siguen mejorando nuestra capacidad para extraer información de los datos, el impulso para recopilarla a un ritmo sin precedentes, y el potencial de revolucionar el desarrollo de fármacos, nunca han sido mayores. Sin embargo, la tecnología solo es tan poderosa como los datos que procesa; sin datos de alta calidad y bien seleccionados, incluso los modelos de IA más avanzados pueden fallar.
Formatos inconsistentes, distintos grados de precisión y conjuntos de datos incompletos son desafíos comunes que, sin la debida atención, pueden socavar la efectividad de los conocimientos basados en datos 2 . Disparidades como estas pueden resultar en conclusiones falsas, tratamientos ineficaces y oportunidades perdidas para abordar las necesidades no satisfechas de los pacientes.
Hacer que los datos sean JUSTOS
Para aprovechar al máximo el potencial de las técnicas avanzadas en el ámbito de la salud, como la IA, el aprendizaje automático y otros métodos analíticos, es fundamental una gestión y curación de datos meticulosas . 3 Unos datos limpios, completos y bien estructurados proporcionan una base sólida sobre la que estas técnicas avanzadas pueden generar innovaciones transformadoras en el sector sanitario.

La adhesión a los principios de datos FAIR (que permiten que los datos sean localizables, accesibles, interoperables y reutilizables) es clave para lograrlo. Al garantizar que los datos cumplan con estos estándares, se facilita su organización, integración y reutilización en diversas aplicaciones basadas en IA. Es importante destacar que estos principios fomentan una cultura de transparencia, innovación y colaboración, fortaleciendo aún más la integridad de los conocimientos derivados de técnicas analíticas avanzadas, incluida la IA.
La importancia de crear un repositorio sólido de datos coherentes y estandarizados trasciende a este sector. Una gestión eficaz de los datos es esencial para facilitar una colaboración significativa entre la industria y el mundo académico. Las instalaciones de investigación de vanguardia, junto con el desarrollo clínico práctico aplicado en la industria, aprovechan las fortalezas de ambos sectores. Al colaborar, pueden establecer prácticas de datos estandarizadas, compartir información valiosa —desde la investigación preclínica hasta el desarrollo— y construir marcos sólidos para la gestión de datos que se ajusten a los principios FAIR.
Esta colaboración garantiza que los datos no sólo estén bien organizados y sean de alta calidad, sino también fácilmente accesibles y reutilizables, lo que mejora su relevancia y aplicabilidad a los desafíos del mundo real.
La estrategia de datos es clave
Establecer un repositorio de datos de salud preciso, comparable y reutilizable es fundamental para maximizar los beneficios potenciales de la IA y el aprendizaje automático en el desarrollo de fármacos, y la reproducibilidad es crucial para lograrlo . 4 Cuando los científicos pueden revisar trabajos previos y obtener los mismos resultados, se verifican los hallazgos y se genera confianza en la información extraída de los datos. Además, la reproducibilidad ayuda a minimizar errores al revelar inconsistencias en los resultados. Finalmente, la adhesión a los principios de datos FAIR facilita la reproducibilidad de los resultados, lo que hace que la colaboración entre equipos e industrias sea más fluida y eficaz.
Al colaborar, la industria y el mundo académico pueden adoptar un enfoque unificado para garantizar que los datos estén cuidadosamente seleccionados, estandarizados y sean relevantes. En última instancia, esto permitirá obtener resultados más rápidos y efectivos para los pacientes, a la vez que garantiza que los datos se mantengan adaptables y, en la medida de lo posible, estén preparados para el futuro. De esta manera, podemos permitir que las metodologías analíticas avanzadas alcancen su máximo potencial e impulsen el progreso en la atención médica y más allá.
Referencias
- Sun, D., Gao, W., Hu, H. y Zhou, S. (2022). ¿Por qué fracasa el 90 % del desarrollo de fármacos clínicos y cómo mejorarlo? Acta Pharmaceutica Sinica B , [en línea] 12(7). Disponible en: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9293739/ .
- Tala Talaei Khoei y Singh, A. (2024). Reducción de datos en big data: un estudio de métodos, desafíos y futuras direcciones. Revista internacional de ciencia y análisis de datos . doi: https://doi.org/10.1007/s41060-024-00603-z .
- Wise, J., de Barron, AG, Splendiani, A., Balali-Mood, B., Vasant, D., Little, E., Mellino, G., Harrow, I., Smith, I., Taubert, J., van Bochove, K., Romacker, M., Walgemoed, P., Jimenez, RC, Winnenburg, R., Plasterer, T., Gupta, V. y Hedley, V. (2019). Implementación y relevancia de los principios de datos FAIR en la I+D biofarmacéutica. Drug Discovery Today , [en línea] 24(4), pp.933–938. doi: https://doi.org/10.1016/j.drudis.2019.01.008 .
- Lake, F. (2019). Inteligencia artificial en el descubrimiento de fármacos: ¿Qué novedades hay y qué se viene? Future Drug Discovery , 1(2), p. FDD19. doi: https://doi.org/10.4155/fdd-2019-0025 .
Acerca de Soroosh Afyouni
El Dr. Soroosh Afyouni es el Director de Ciencias de Datos de Salud en bioXcelerate AI. Antes de completar su doctorado en Neuroimagen Estadística en la Universidad de Warwick en 2017, donde se especializó en análisis estadístico de redes y series temporales, Soroosh obtuvo una Maestría en Ingeniería en la Universidad de Birmingham en 2012.
De 2017 a 2020, Soroosh continuó su investigación como investigador postdoctoral (junior y sénior) al unirse al Instituto de Big Data de la Universidad de Oxford, donde desarrolló modelos de series temporales para estimaciones precisas de la actividad cerebral humana en conjuntos de datos a gran escala como el Biobanco del Reino Unido. Durante su estancia en Oxford, Soroosh recibió un Premio al Mérito de la Organización Interna para el Mapeo del Cerebro Humano. En 2021, Soroosh se incorporó al Departamento de Psicología y a la Facultad de Matemáticas de la Universidad de Cambridge para centrarse en el desarrollo de métodos de aprendizaje automático (ML) para el diagnóstico precoz de la enfermedad de Alzheimer.
Además de su formación académica, Soroosh trabajó durante casi dos años en una consultora de gestión estadounidense, donde colaboró con las principales compañías farmacéuticas para abordar sus desafíos estratégicos comerciales y de I+D, desde el uso de historiales médicos electrónicos en ensayos clínicos hasta el diseño y la evaluación de nuevos modelos operativos de I+D. Soroosh se incorporó a bioXcelerate en 2023, donde trabajará en la aplicación de métodos estadísticos y de aprendizaje automático en la medicina de precisión.
