KWaaS, de 2003

Editor: “En 2003 nace KW Foundation para crear y curar conocimiento como servicio (lo que registramos como KWaaS: KnoWledge as a Service). Si bien presentamos este paradigma como proyecto de startup global, la industria no estaba preparada para colocar en comunidades abiertas o cerradas la gestión reusable del conocimiento. Se confundió y mucho con el PDF, donde la portabilidad que presentaba este formato perdía muchísimo contexto y aplicabilidad. Las universidades rechazaron otro formato, para que el conocimiento que se creaba en sus diferentes estamentos no fuera tan fácil de consumir y ponerlo en práctica real. Artículos como el Steve Smith han reconfirmado aquel concepto, en el entendido que la utilización de componentes reusables de conocimiento en formato compacto, computable e infinitamente reusable es la mejor manera de que la IA los utilice sin agregar sesgos y reconociendo mejor a sus autores.” Gustavo Tejera.

por Steve Smith

Steve Smith

Steve Smith explica por qué los editores deben convertirse ahora en «curadores del contexto» en la era informática

Durante gran parte de las últimas dos décadas, el lema de la publicación académica ha sido el acceso. Creamos plataformas que eliminaron los muros de pago, digitalizaron archivos y democratizaron el descubrimiento. El «acceso al contenido» se convirtió en el eje moral y económico de la industria, como sinónimo de equidad, visibilidad e impacto.

Pero estamos entrando en un mundo donde el acceso por sí solo ya no es suficiente. Investigadores, corporaciones y sistemas de IA ahora consultan el registro científico en volúmenes que habrían parecido absurdos hace una década. ChatGPT respondió 100 millones de consultas en sus primeros dos meses; las Vistas Generales de IA de Google ahora resumen los resultados de búsqueda sin enviar a los usuarios a los sitios web de los editores. La pregunta está cambiando de “¿ Puedo leerlo?” a ” ¿Puedo usarlo?”. Y en ese cambio, el valor se aleja del contenido en sí y se acerca a lo que podríamos llamar conocimiento computable : información estructurada, vinculada y rica en contexto, confiable y reutilizada a gran escala.

Se trata de una transición de “vender acceso al contenido” a “vender acceso a las respuestas”. Las editoriales siempre han estado en el negocio del conocimiento, pero solo ahora el mercado exige que el conocimiento sea legible por máquinas, con licencia demostrable y contextualmente intacto. La oportunidad no reside en proporcionar otro volcado de datos, sino en ofrecer una capa estable y de alta confianza de conexiones verificadas entre imágenes, pies de foto y párrafos, y entre conjuntos de datos, métodos y resultados.

Lo que está surgiendo es un modelo de conocimiento como servicio : una forma de ofrecer el significado destilado y estructurado de la investigación, no solo sus resultados formateados. Si el acceso fue el logro decisivo de la última era editorial, el conocimiento bien podría ser la oportunidad decisiva de la próxima.

La capa de cómputo: los editores ya saben cómo hacerlo

Si el “acceso” era el lema de la era de la ciencia abierta, la capa emergente es la “computación”. Un número creciente de editoriales ya permiten el análisis dentro de sus plataformas sin que los usuarios exporten un archivo. Digital Scholar Lab de Gale, Constellate de JSTOR, TDM Studio de ProQuest y SN SciGraph de Springer Nature permiten a los investigadores ejecutar cuadernos de Python o R directamente en contenido con licencia. Estos entornos son, en efecto, API de computación con una interfaz de usuario, lugares donde el código se conecta al contenido, y no al revés.

Este modelo es importante porque demuestra cómo los editores pueden mantener su relevancia y cumplimiento normativo en un mundo posterior a las descargas. Universidades y corporaciones financian estas plataformas precisamente porque eliminan la fricción legal y técnica de la exportación masiva. Ofrecen entornos seguros y con control de derechos donde se pueden realizar análisis in situ . Las API emergentes pueden seguir la misma lógica: permitir consultas estructuradas, análisis y entrenamiento de modelos dentro de un entorno confiable, preservando la procedencia y el crédito, a la vez que permiten el descubrimiento a gran escala.

Pero la cuestión es la siguiente: la computación, por sí sola, sigue siendo infraestructura. Es necesaria, pero no suficiente. El verdadero diferenciador será lo que se encuentra por encima, la capa que podríamos describir como “acceso a las respuestas”.

Considere lo que realmente necesita un ingeniero que construye una red neuronal. No le importa en qué revista apareció un diagrama de circuito; le importa que la topología esté verificada, sea trazable y esté vinculada a las ecuaciones que la rigen. No necesita un PDF; necesita un objeto de conocimiento: imagen + pie de foto + ecuaciones + métodos + procedencia, todo direccionable por máquina y con derechos de acceso.

Esa es la oportunidad del Conocimiento como Servicio: ofrecer información depurada y procesable por máquinas, en lugar de documentos estáticos. Algunas editoriales ya están experimentando con versiones de investigación optimizadas por IA, reempaquetando el contenido para su consumo algorítmico. Es un paso en la dirección correcta, pero aún trata el conocimiento como un objeto con un formato mejor. El mayor avance es tratarlo como una red enlazada y consultable, donde las imágenes permanecen conectadas a los pies de foto, los métodos se pueden consultar (no solo leer) y la procedencia está integrada.

En ese sentido, la computación no es el objetivo final, sino el puente hacia el conocimiento. La tecnología existe. El interés empresarial existe. (Observe los acuerdos que las empresas de IA están cerrando con los editores para obtener datos de entrenamiento). La pregunta ahora es si los editores se limitarán a alojar entornos de análisis o avanzarán en la pila, convirtiendo esos mismos entornos en capas de conocimiento confiables que brinden respuestas, contexto y significado a demanda.

El rol emergente de los editores: curadores del contexto

Si la primera revolución digital giró en torno a la digitalización y el acceso, y la segunda a la computación, la próxima girará en torno al contexto. Las máquinas ahora pueden encontrar casi cualquier cosa; lo que aún no pueden hacer con fiabilidad es comprenderlo sin ayuda. Ahí es donde las editoriales vuelven a la historia.

A menudo se caricaturiza a las editoriales como intermediarios, como cobradores de peajes en la autopista de la información. Pero su verdadera fortaleza siempre ha sido la curación: decidir qué merece atención y preservar el tejido conectivo que hace que la investigación sea interpretable. Un artículo, después de todo, es más que texto. Incorpora enlaces de procedencia, evaluación por pares y metadatos que indican quién financió el trabajo, qué métodos se utilizaron, qué datos respaldan las cifras y cómo los resultados se alinean con hallazgos previos. Esa red de relaciones es la parte que corre mayor riesgo cuando el contenido se descompone en tokens para el entrenamiento de modelos o fragmentos indexados en una base de datos vectorial.

El valor reside en la vinculación y el contexto: imágenes, pies de foto, párrafos, métodos y datos. Esa es la unidad del significado científico, y es precisamente la capa que se pierde cuando los documentos se reducen a datos de entrenamiento. En una economía de investigación impulsada por la IA, esa integridad contextual se convierte en el factor diferenciador. Los modelos más importantes no se entrenan con más datos, sino con conocimiento mejor vinculado.

Aquí es donde las editoriales tienen la oportunidad de reposicionarse, no como proveedores de PDF o incluso API, sino como custodios de relaciones verificadas. Ya gestionan identificadores de confianza (DOI, ORCID, ROR, ID de concesión). Ya invierten en la calidad de los metadatos, la validación editorial y la gobernanza de la revisión por pares. Lo que falta es un replanteamiento, para verlos no como centros de costos, sino como activos en una infraestructura de conocimiento de la que otros pronto dependerán.

Imagine un futuro donde la API de un editor no solo ofrece una imagen o un párrafo, sino que también le indica su grado de confianza en su procedencia. Donde las declaraciones legibles por máquina capturan los datos y métodos subyacentes a cada resultado. Donde cada cifra conlleva una pequeña cadena de suministro de confianza, como roles de CRediT, declaraciones de disponibilidad de datos, códigos de replicación o historial de revisión por pares. Así es como podría ser el conocimiento como servicio en la práctica: una transición de la venta de acceso a la distribución de objetos de conocimiento confiables e interpretables que tanto máquinas como humanos puedan analizar.

Imagine a un científico de materiales entrenando un modelo para predecir estructuras cristalinas. Hoy en día, extraen figuras de archivos PDF, extraen subtítulos con OCR (a menudo de forma incorrecta) y esperan que los metadatos sean precisos. En un mundo de conocimiento como servicio, consultan una API que devuelve la imagen de la estructura cristalina, su subtítulo, las condiciones experimentales de la sección de métodos, enlaces al conjunto de datos subyacente y un índice de confianza basado en el estado de la revisión por pares y la disponibilidad de los datos. El editor no solo proporciona un documento; proporciona conocimiento verificado y reutilizable.

El futuro no se trata de mayor potencia informática ni de más contenido. Se trata del tejido conectivo inteligente que hace que la investigación sea fácil de encontrar, utilizable y creíble. Y las editoriales, casi de forma única, ya poseen ese tejido. Solo necesitan reconocerlo como su próximo modelo de negocio.

Riesgos, requisitos y el camino a seguir

Nada de esto ocurrirá automáticamente. Si los editores quieren aprovechar esta nueva capa de valor, deberán tomar decisiones deliberadas, no solo técnicas, sino también culturales.

El primer requisito es la interoperabilidad . Un ecosistema de conocimiento como servicio solo puede funcionar si los editores adoptan esquemas y marcos de metadatos compatibles. Si cada “API de conocimiento” habla su propio dialecto, el resultado será fragmentación, no valor. Organismos de normalización como Crossref, DataCite y NISO deberán desempeñar un papel de coordinación, y los editores deberán considerar la calidad de los metadatos no como una tarea administrativa, sino como una infraestructura compartida. Esto implica invertir en resúmenes estructurados, declaraciones de disponibilidad de datos legibles por máquina, anotaciones estandarizadas de figuras e identificadores persistentes para todo; no solo artículos, sino también figuras, conjuntos de datos, repositorios de código y reactivos.

La segunda es la gobernanza de la confianza . Una vez que las máquinas se convierten en los principales usuarios del contenido, el concepto de “confianza” pasa de la reputación de marca a la verificación de la procedencia. Tecnologías como C2PA (estándares de autenticidad de contenido), las certificaciones de blockchain y los identificadores persistentes pueden registrar la cadena de custodia de los objetos de investigación, pero la gobernanza sigue siendo importante. Los editores necesitarán políticas claras sobre qué está dentro del alcance del consumo automático, cómo se actualizan o revocan los datos y cómo se aplica la atribución posteriormente. En este nuevo mercado, el activo más valioso de un editor podría ser la integridad de sus metadatos, no la exclusividad de su contenido.

El tercer requisito es la transparencia en precios y derechos . A medida que evolucionan las licencias de datos, los nuevos modelos deberán ser accesibles por máquina y legalmente predecibles. Esto implica niveles claramente definidos: acceso para humanos, computación para análisis, conocimiento para la toma de decisiones, cada uno con derechos de uso auditables y costos predecibles. El objetivo no es medir la curiosidad, sino hacer que la confianza y la claridad sean el producto por el que los clientes pagan. Los metadatos de derechos deben ser tan estructurados y consultables como el propio contenido.

El riesgo existencial es real . Si se actúa con demasiada lentitud, los agregadores externos, como Google, OpenAI y Scopus AI de Elsevier, capturarán primero la “capa de conocimiento”, abstrayendo a los editores que la crearon. Ya hemos visto esta situación: Google Académico agregó redes de citas creadas por los editores; Sci-Hub fidelizó a los usuarios al resolver un problema de acceso que los editores tardaron en abordar. La oportunidad del conocimiento como servicio podría seguir el mismo camino si los editores no actúan.

Si nos precipitamos, corremos el riesgo de construir silos propietarios que recreen las mismas barreras de acceso que tardamos dos décadas en desmantelar. El equilibrio residirá en estándares abiertos, API transparentes y modelos de negocio que premien la gestión en lugar del encierro. Esto no es un argumento a favor de la transparencia ni de la entrega de la tienda; es un argumento a favor de construir una infraestructura interoperable que genere más valor al estar conectada que al estar confinada.

También existe una tensión estratégica que los editores deben afrontar : licenciar contenido a empresas de IA para entrenamiento (ingresos a corto plazo) versus desarrollar servicios de conocimiento que conviertan a los editores en intermediarios indispensables (posicionamiento estratégico a largo plazo). Lo primero es transaccional; lo segundo, estructural. Los editores necesitan ambos, pero la combinación es importante. Vender demasiados datos de entrenamiento a un precio demasiado bajo significa que se está convirtiendo en un producto básico. Invertir en la capa de conocimiento significa crear una ventaja competitiva.

La elección por delante

La última era de la publicación se trataba de abrir puertas a lectores, autores y datos. La próxima se tratará de conectar salas: vincular personas, máquinas y significado a través de una infraestructura confiable. El «acceso» trajo la información a todos. La «computación» la hizo analizable. El «conocimiento» la hará interpretable

Los editores pueden observar cómo se construye esa pila de información a su alrededor o liderar su definición. La decisión, como siempre, se reduce a si nos consideramos proveedores de contenido o custodios del conocimiento. En una era de datos infinitos, lo más valioso que queda por vender y proteger quizás sea la confianza misma.

La infraestructura ya se está construyendo. La pregunta es quién controla los metadatos, quién establece los estándares y quién captura el valor. Los editores tienen un breve margen para reclamar este territorio antes que otros. La era del acceso nos enseñó que la apertura triunfa. La era de la computación nos está enseñando que el contexto importa. La era del conocimiento recompensará a quien haga que el contexto sea computable.

Steven D Smith, DPhil , es el fundador de STEM Knowledge Partners y consultor independiente.

Fuente: https://www.researchinformation.info/analysis-opinion/from-access-to-answers-knowledge-as-a-service/

Deja una respuesta