
Los datos se consideran el nuevo activo estratégico, e impulsan el futuro de la ciencia, la tecnología, la economía
por Juan Rosa
- Definiciones
- Ciencia de Datos
- Tendencias de interés de búsqueda en línea
- Ubicuidad de la información
- Datificación
- Cuantificación de datos
- Yo cuantificado
- Incentivos estatales a la ciencia de datos
- Desarrollo disciplinar de la ciencia de datos
- Nueva economía de datos y transformación de la industria
- Evolución de la analítica explícita a la analítica implícita
- Analítica explícita
- Analítica implícita
- Análisis Predictivo
- Análisis Prescriptivo
- Ciencia de datos en salud
- Analítica en Salud
- Analítica en salud 1.0
- Salud 1.0
- Analítica en salud 2.0
- Salud 2.0:
- Analítica en salud 3.0
- Web y tecnologías 3.0:
- Salud 3.0
- Aplicaciones de la AS
- Salud Inteligente
- Financiamiento de la salud
- Imágenes en salud
- Bioseñales
- Genómica
- Análisis de texto
- Conclusiones

El descubrimiento y la exploración intensiva de datos ha generado un nuevo paradigma científico, el llamado “cuarto paradigma de la ciencia” o e-Science, que unifica la experimentación, la teoría y la computación. Los datos se consideran el nuevo activo estratégico, e impulsan o incluso determinan el futuro de la ciencia, la tecnología, la economía y posiblemente todo en nuestro mundo de hoy y de mañana.
No hay duda de que se está reconociendo cada vez más el potencial de la ciencia y el análisis de datos para permitir el desarrollo social, profesional y de la economía basados en datos. Esto involucra no sólo disciplinas centrales como computación, informática y estadística, sino también campos amplios de negocios, ciencias sociales y ciencias de la salud.
Definiciones
Para comenzar, hay algunos términos clave que deberíamos definir, ya que están altamente conectados y pueden llegar a ser confusos.
Término | Descripción |
Análisis de datos | Procesamiento de datos mediante teorías, tecnologías y herramientas tradicionales (por ejemplo, estadística clásica, matemática o lógica) para obtener información útil y con fines prácticos. |
Analítica de datos | Conjunto de teorías, tecnologías, herramientas y procesos que permiten una comprensión profunda y el descubrimiento de información procesable sobre los datos. |
Big data | Volúmenes de datos que son demasiado grandes y/o complejos para ser manejados de manera efectiva y/o eficiente por las teorías, tecnologías y herramientas tradicionales relacionadas con el análisis de datos. |
Minería de datos | Es el proceso de descubrir conocimientos ocultos e interesantes a partir de los datos. |
Ciencia de datos | Ciencia de los datos o estudio de los datos. |
Ciencia de Datos
La ciencia de datos es un nuevo campo interdisciplinario que sintetiza y se basa en estadística, informática, computación, comunicación, gestión y sociología para estudiar los datos y sus entornos. De esta manera, pretende transformar los datos en conocimientos y decisiones siguiendo un pensamiento y una metodología del tipo datos hacia información, hacia conocimiento.
Tendencias de interés de búsqueda en línea
Para dimensionar la popularidad de estos nuevos términos, en 2016 se llevaron a cabo búsquedas en Google que devolvieron la siguiente cantidad total de resultados:
– Ciencia de datos → 83,8 millones.
– Análisis/Analítica de datos → 81,8 millones.
– Big Data → 365 millones.
Llamativamente, el interés histórico de búsqueda en ciencia de datos y análisis/analítica de datos era aproximadamente el doble del interés mostrado en Big Data hace unos 10 años. Sin embargo, en comparación con el crecimiento constante del interés en ciencia de datos y análisis/analítica de datos, el interés en Big Data ha experimentado un aumento mucho mayor desde 2012. El auge significativo de Big Data ha estado fundamentalmente relacionado con los negocios, mientras que el crecimiento de los otros términos ha estado más vinculado con la investigación y la innovación.
Ubicuidad de la información
El crecimiento continuo de la ciencia de datos y su aplicación en distintos aspectos de nuestra vida, tiene una relación estrecha con la ubicuidad de la información. Los datos son ubicuos gracias a fenómenos conocidos como Datificación y Cuantificación de datos.

Datificación
Es una tendencia tecnológica que convierte muchos aspectos de nuestra vida en datos, que posteriormente se transfieren a información generando una nueva forma de valor.
Cuantificación de datos
Es el acto de mapear a términos contables y medibles las observaciones y experiencias de los sentidos humanos.
Así, la datificación y la cuantificación de datos tienen lugar en cualquier momento y en cualquier lugar por cualquier persona, de cualquier forma, de una manera, extensión, profundidad, variedad y velocidad no tradicionales.
Yo cuantificado
En este sentido, un término que está ganando cada vez más popularidad es el Yo cuantificado. Se refiere tanto al fenómeno cultural de auto-seguimiento con tecnología como a una comunidad de usuarios y creadores de herramientas de auto-seguimiento que comparten un interés en el “autoconocimiento a través de números”. Estas prácticas cuantificadas incorporan el registro de datos de la vida diaria, a menudo con el objetivo de mejorar el rendimiento físico, la salud mental y emocional.
La adopción generalizada en los últimos años de rastreadores de sueño y fitness portátiles como el Fitbit o el Apple Watch, combinada con la mayor presencia de Internet de las cosas en la atención médica y en los equipos de ejercicio, han hecho que el seguimiento automático sea accesible para una gran parte de la población.
Incentivos estatales a la ciencia de datos
Para comprender y utilizar eficazmente los datos en todas partes y con todo su potencial, se están introduciendo un número cada vez mayor de iniciativas gubernamentales regionales y globales para promover la ciencia de datos. Veamos algunos ejemplos:
– La Estrategia de Big Data del Servicio Público de Australia tiene como objetivo brindar oportunidades a las agencias en relación con el uso de Big Data y herramientas emergentes de análisis de datos. Otro esfuerzo del gobierno australiano fue el establecimiento de Data61, que tiene como objetivo brindar una plataforma unificada para la investigación de datos e innovación, comprometiendo a la industria, el gobierno, la academia y el desarrollo de software.
– En China tienen como objetivo impulsar el desarrollo de aplicaciones e investigación de big data, para establecer un mecanismo de coordinación general para el desarrollo, acelerando el establecimiento de reglas relevantes y fomentando la cooperación entre el gobierno, empresas e instituciones. China también ha establecido un plan estratégico nacional para Internet de las cosas y computación en la nube.
– La Unión Europea ha comunicado un plan de acción para lograr una economía basada en datos, respaldada en una estrategia sobre Big Data. La economía impulsada por los datos estimulará la investigación y la innovación, al tiempo que generará más oportunidades comerciales y una mayor disponibilidad de conocimiento y capital. En concordancia con esto, en 2015 se formó la Academia Europea de Ciencia de Datos.
– El Proyecto Pulso Global de las Naciones Unidas (ONU) es una iniciativa emblemática de innovación del Secretario General de las Naciones Unidas sobre big data. Su visión es un futuro en el que big data se aproveche de forma segura y responsable como un bien público. Su misión es acelerar el descubrimiento, el desarrollo y la adopción a escala de la innovación de big data para el desarrollo sostenible y la acción humanitaria. [ONU 2010]
– La Iniciativa de Investigación de Big Data de los Estados Unidos (EEUU) está dirigida a apoyar la ciencia y la infraestructura subyacente que permite la revolución de big data. En 2012, el Instituto Nacional de Estándares y Tecnología (NIST) presentó una nueva iniciativa de ciencia de datos, y en 2013, se estableció el Consorcio Nacional de Ciencia de Datos de EEUU.
Desarrollo disciplinar de la ciencia de datos
La ciencia de datos está siendo adoptada cada vez por más disciplinas y dominios en los que tradicionalmente era irrelevante, como el derecho, la historia e incluso la salud. En consecuencia, surge la necesidad de capacitar a la próxima generación de profesionales para comprender de manera inteligente el universo de datos, con la ciencia de datos como una competencia esencial.
Más de 150 universidades e instituciones han creado o están planificando cursos en ciencia de datos y big data. Los cursos de ciencia de datos en línea complementan la educación tradicional y ofrecen un modelo de negocio exitoso. Cursos en línea, como los que se ofrecen como curso en línea abierto masivo (MOOC) y las universidades abiertas, están alimentando rápidamente el mercado. Class Central, Coursera, Edx y Udacity son algunos ejemplos.
La mayoría de los cursos disponibles se enfocan en temas como estadísticas, minería de datos, aprendizaje automático, inteligencia de negocios y gestión de bases de datos.
Nueva economía de datos y transformación de la industria
Hoy en día, se puede decir con seguridad que la ciencia de datos ha permitido la llegada de la “nueva economía”, basada en productos de datos.
Un número cada vez mayor de organizaciones reconoce el valor de los datos como un activo estratégico e invierten en la construcción de infraestructura, recursos, talento y equipos para respaldar la innovación empresarial y crear diferenciadores que impulsarán la competencia y la productividad. De hecho, las empresas líderes en Internet basadas en datos, como Google, Facebook, SAS, Alibaba, Baidu y Tencent, han superado a los gigantes empresariales tradicionales.
Empresas centradas en la fabricación y orientadas al negocio, incluidas IBM, Intel y Huawei, también han lanzado acciones estratégicas para big data, IoT y computación en la nube, siguiendo la tendencia de transformación basada en productos de datos e innovación. Asimismo, otros sectores comerciales tradicionales, como bancos, compañías de seguros, telecomunicaciones, el turismo y el comercio minorista también están invirtiendo en análisis de datos para transformar su productividad y ventaja competitiva.
Evolución de la analítica explícita a la analítica implícita
Las últimas cuatro décadas han visto la transferencia del análisis de datos pequeños y simples, junto con pruebas de hipótesis, al análisis de datos grandes y complejos, sin hipótesis, para el descubrimiento de conocimientos.
El objetivo de la analítica es aumentar la visibilidad de la información para los usuarios, automatizar el análisis de datos y mejorar la capacidad de comprensión, producción y aplicación de datos.
En pos de este objetivo, la analítica de datos ha evolucionado, estableciendo 3 etapas principales:
– Analítica explícita.
– Analítica implícita.
Analítica explícita
La analítica explícita se basa fundamentalmente en el Análisis Descriptivo de eventos pasados. Tiene las siguientes características:
Enfoque: Explorar qué sucedió y obtener información sobre cómo y por qué sucedieron los eventos. Sabemos qué debe analizarse y con qué fines. “Sabemos lo que sabemos” para llevar a cabo una comprensión reactiva de lo que sucedió.
Métodos: Análisis histórico de datos pasados, partiendo de hipótesis de expertos y conocimientos específicos.
Objetivo: Identificar y describir la generación, distribución y tendencia de datos.
Resultado: Consiste en informes periódicos y análisis estadísticos ad hoc. Describen y presentan lo que ha sucedido, está sucediendo o sucederá en datos generalmente pequeños o muy manipulados.
Analítica implícita
La limitación de la analítica explícita ha sido identificada en el manejo de datos inciertos y con distribución heterogénea. Como resultado, el rumbo se ha desplazado hacia el análisis implícito, centrado en la analítica profunda. Esta etapa, a su vez, engloba dos enfoques principales que son el Análisis Predictivo y el Análisis Prescriptivo.
Análisis Predictivo
Enfoque: Explorar que está sucediendo y qué sucederá en el futuro, para obtener información sobre cómo y por qué sucederá. Aborda el concepto de “sabemos lo que no sabemos”.
Métodos: Herramientas de pronóstico, minería de datos y aprendizaje automático.
Objetivo: Obtener una comprensión de los datos y la problemática de negocio de fuentes visibles e invisibles.
Resultados: Estimación de la ocurrencia de eventos, agrupaciones y patrones futuros a través de paneles e informes analíticos.
Análisis Prescriptivo
Enfoque: Descubrimiento de conocimientos invisibles y conocimientos prácticos a partir de datos y entornos complejos. No sabemos qué se va a analizar, ni siquiera por qué y qué podemos obtener.
Métodos: Desarrollo de algoritmos y herramientas personalizadas, innovadoras y efectivas para comprender de manera profunda y genuina los datos y negocios específicos del dominio.
Objetivos: Generar recomendaciones de acciones (la siguiente mejor opción) para las decisiones de negocio.
Resultado: Los conocimientos se extraen con fines de toma de decisiones, como la gestión e intervención de riesgos en tiempo real.
Ciencia de datos en salud
Aplicar la ciencia de datos a la salud implica evolucionar en el análisis de la información en un terreno ya de por sí complicado. El cuidado de la salud no sólo está produciendo un volumen enorme de datos, sino que la naturaleza de los mismos es heterogénea, y con gran cantidad de variables. Las fuentes de datos en salud se clasifican en dos clases principales:
– Fuentes internas (por ejemplo, HCE, CPOE, CDSS, etc).
– Fuentes externas (registros nacionales, registros de financiadores, farmacias, redes sociales, etc).
Esto, sumado a la velocidad a la que deben gestionarse convierten al campo de la salud en un desafío para el análisis inteligente de datos.
Analítica en Salud
En respuesta a esta problemática de procesamiento de datos en la industria sanitaria actual surge la Analítica en Salud (AS). Esta, representa el conjunto de tecnologías y análisis de datos aplicados a la atención en salud. Durante los últimos 20 años, los avances en tecnologías de la información y la comunicación (TICS), la inteligencia artificial y el análisis de datos avanzados han cambiado al sistema de salud hacia un modo más eficiente y efectivo. A través de este camino, se pueden distinguir 3 etapas de la analítica en salud.
Analítica en salud 1.0
La AS comenzó con técnicas de bases de datos en entornos de atención médica en la década de 1970. Didácticamente, podemos dividir su análisis en Web y tecnologías 1.0 y Salud 1.0.
Web y tecnologías 1.0:
– Los datos están completamente estructurados, son homogéneos y se almacenan en sistemas de gestión de bases de datos relacionales (RDBMS).
– Es en su mayoría unidireccional, por lo que solo permite la interacción directa entre proveedores y clientes.
– No permite la integración de varios sistemas.
– La visualización de la información es estática.
– Sus tecnologías incluyen los protocolos web centrales, como HTML y HTTP, y protocolos web emergentes, como XML.
– Las aplicaciones de software incluyen algunos paquetes para extracción, transformación y carga (ETL), procesamiento analítico en línea (OLAP), consultas e informes de bases de datos.
Salud 1.0
– Tiene un enfoque centrado en la institución de salud y no en el paciente.
– Los hospitales u organizaciones sanitarias producen información sin ninguna interacción con los pacientes.
– Es principalmente una forma de publicar contenido.
– El objetivo es establecer una presencia en línea de los prestadores de servicios y poner la información a disposición de los pacientes en cualquier momento.
Analítica en salud 2.0
En 2004, se introdujo el término Web 2.0 para permitir a los usuarios agregar información y contenido a la web, interactuando mediante el diálogo en las redes sociales. A partir de ese momento, internet se ha vuelto cada vez más popular y ahora forma parte de nuestra vida diaria.
Web y tecnologías 2.0:
– Permite reunir grandes multitudes globales con intereses comunes.
– Gestiona datos no estructurados como feeds de redes sociales, blogs, microblogs, wikis entre otros.
– Enfatiza la aplicación de agentes inteligentes, aprendizaje automático, redes neuronales y minería de datos.
– La visualización de la información es dinámica.
– Análisis web semántico mediante minería de texto.
Salud 2.0:
– Desarrolla un área asistencial centrada en el paciente.
– Pacientes y profesionales pueden interactuar entre sí para desarrollar una asistencia sanitaria colaborativa.
– Las aplicaciones pueden recopilar grandes volúmenes de reacciones y sentimientos en registros de chat, foros en línea o blogs de pacientes. De esta forma, permite generar distintos tipos de análisis en salud y fomentar el diseño de soluciones de e-sanidad.
– Se enfoca en mejorar la calidad, controlar los costos operativos, involucrar mejor a los pacientes, mejorar la eficiencia operativa y satisfacer la demanda de servicios de salud.
Analítica en salud 3.0
La Web 3.0, promete ser una web más madura y emergente, con caminos mejorados para la recuperación y el procesamiento inteligente de la información. Durante los últimos cinco años, se ha avanzado en los sistemas de atención en salud, mejorando la comunicación paciente-profesional, presentando servicios sensibles al contexto y ofreciendo atención médica inteligente y automatizada.
Web y tecnologías 3.0:
– Implica la integración de técnicas escalables en análisis de big data, análisis de redes sociales y análisis espacio-temporal con sistemas basados en minería de datos.
– Se propone brindar un servicio ubicuo, basado en dispositivos móviles y sistemas inteligentes.
– El análisis es en tiempo real y sensible al contexto.
Salud 3.0
– Mantiene el enfoque centrado en el paciente.
– El propósito es permitir una amplia gama de aplicaciones y oportunidades que incluyen:
Telemedicina móvil.
Monitoreo basado en sensores.
Servicios médicos ubicuos.
Acceso universal a datos de atención en salud.
Monitoreo intensivo.
Incentivos de estilo de vida.
Es clave la regulación de la privacidad y la seguridad de la información.
Aplicaciones de la AS
Las aplicaciones de AS están creciendo en diferentes dimensiones del campo de la salud, a través de sistemas como registros clínicos electrónicos, registros personales de salud, sistemas de soporte a las decisiones clínicas y entrada computarizada de pedidos médicos (CPOE). Veamos más en profundidad algunos casos.
Salud Inteligente
La salud inteligente integra ideas de la computación ubicua y la inteligencia artificial aplicadas a sistemas de salud predictivos, personalizados, preventivos y participativos. La salud inteligente está fuertemente relacionada con los conceptos de bienestar e incluye un gran volumen de datos, recopilados a través de:
– Sensores biomédicos para captura de señales (temperatura, frecuencia cardíaca, presión arterial, y frecuencia respiratoria).
– Big data genómica (genotipado, expresión y secuenciación de genes).
– Datos de redes sociales (estados, comentarios y respuestas), para observar y predecir las condiciones físicas y mentales de los pacientes.
La salud inteligente es un campo de estudio incipiente pero prometedor en la intersección de la informática, la salud pública y los negocios, aludiendo a los servicios de salud inteligentes a través de IoT (Internet de las cosas).
Financiamiento de la salud
En la actualidad, las aseguradoras y los proveedores de fondos de atención en salud utilizan ampliamente el análisis de Big Data y las tecnologías de la información para identificar los sobrecostos que podrían constituir anomalías.
Los datos de seguros y pagos se recopilan a partir de reclamos de clientes y datos de altas hospitalarias. A través de técnicas de inteligencia artificial, es posible abordar reclamos y pagos de manera interconectada, mientras que anteriormente, los sistemas tendían a enfocarse en cada reclamo individualmente llevando a errores y pérdidas económicas.
Por ejemplo, para tomar decisiones efectivas, los modelos predictivos de seguro de salud en Australia utilizan tres niveles de análisis: análisis de nivel de admisión, análisis de nivel agregado y análisis de nivel de contrato. En el entorno de big data, estos análisis extraen admisiones anómalas y comparan el desempeño de los proveedores con respecto a la rentabilidad y las anomalías en la calidad de la atención. Además, permite la detección de fraudes mediante el uso de métodos de aprendizaje automático no supervisados, y análisis de conjuntos de datos de reclamos para entregar datos y servicios a terceros.
Imágenes en salud
En el análisis de imágenes médicas se utilizan diferentes técnicas de AS, como la segmentación, la agrupación en clústeres, la extracción de información y los métodos de integración. En entornos clínicos, estas técnicas analíticas mejoran los sistemas de apoyo a la toma de decisiones mediante el análisis de grandes volúmenes de imágenes, que aumentan exponencialmente. Aunque el creciente volumen de cantidad y tamaño de las imágenes en salud presenta algunos nuevos desafíos para la integración y la minería, ayuda a mejorar la precisión del diagnóstico y también reduce el tiempo y el costo necesarios.
Bioseñales
Actualmente, los datos de ondas fisiológicas provienen de múltiples fuentes de información, por lo que los sistemas de salud existentes no pueden generar resultados analíticos porque están diseñados para analizar sólo señales fisiológicas singulares. Para analizar estos datos clínicos de series de tiempo, es necesario implementar tecnologías avanzadas de AS que sean capaces de extraer interacciones y relaciones complejas de múltiples fuentes.
Genómica
Teniendo en cuenta que el genoma humano abarca de 30 a 35 mil genes, el análisis de las técnicas de secuenciación de rendimiento avanzado en genómica es un problema inherentemente de big data. Analizarlos para desarrollar recomendaciones aplicables en tiempo real es un desafío importante en el área de la biología computacional. Para abordar estos desafíos, se requiere una investigación con enfoques y análisis avanzados de AS para ofrecer recomendaciones a partir de datos genómicos en entornos clínicos.
Análisis de texto
Los sistemas de información sanitaria comprenden un gran volumen de datos textuales y numéricos como notas administrativas, notas médicas, documentos asistenciales, etc. Las HCE contienen información valiosa que podría conducir a mejorar la calidad de atención, promocionar la investigación, reducir el error diagnóstico y terapéutico y eliminar costos innecesarios. Sin embargo, los documentos de texto no estructurados varían en complejidad, extensión y uso de terminología técnica, lo que hace muy difícil su interpretación.
Mediante herramientas de Procesamiento del Lenguaje Natural como análisis de contenido, procesamiento semántico o procesamiento léxico y sintáctico, es posible extraer conocimiento crítico de archivos de datos textuales.
Conclusiones
La ciencia de datos se reconoce cada vez más como la principal fuerza impulsora de la innovación, la economía y la educación de la próxima generación. Con los esfuerzos conjuntos de toda la comunidad científica, la ciencia de datos construirá sus fundamentos, estructura disciplinaria, sistemas teóricos y conjuntos de herramientas como ciencia independiente.
Aunque se encuentra en una etapa temprana de desarrollo, la ciencia de datos nos ha propiciado avances significativos en nuestro sistema global, como por ejemplo:
– Fortalecer el desarrollo, la investigación y la educación interdisciplinarias y transdisciplinarias.
– Inventar nuevas capacidades de representación de datos, incluidos diseños, estructuras, esquemas y algoritmos para hacer que las características desconocidas en datos complejos sean visibles y explícitas, y más fáciles de comprender o explorar.
– Interconectar los diferentes aspectos de nuestra vida diaria, aumentando nuestra comprensión de las capacidades, limitaciones y direcciones futuras.
– Desarrollar un sistema de datos que pueda imitar de forma autónoma los mecanismos de trabajo del pensamiento humano para reconocer, analizar y aprender datos y el entorno, inferir y razonar sobre el conocimiento y la percepción y, en consecuencia, tomar acciones.