Knowledge Management

por Jelani Harper


La computación en la nube ha surgido silenciosamente como el punto focal del descubrimiento electrónico. Esto es significativo por dos razones. El primero es el alcance horizontal del dominio, en el que cualquier organización puede verse envuelta, especialmente porque ahora trasciende los litigios para incluir también regulaciones de privacidad de datos, investigaciones internas y solicitudes de la Ley de Libertad de Información. El segundo es que el e-discovery abarca tantas facetas del ecosistema de gestión de datos (análisis avanzado, gobernanza de datos, gestión de metadatos, visualizaciones de datos, catalogación de datos y más) que es un reflector innegable de dónde se encuentra ese ecosistema hoy: en la nube.

Colaboración
El secreto de la nube

“Una gran cantidad de datos en cualquier corporación, en cualquier entidad en realidad, está en la nube”, dijo AJ Shankar, CEO de Everlaw. Y, si aún no está en la nube, señaló, se está moviendo allí. La computación y la arquitectura en la nube brindan las siguientes tres ventajas para el mercado del descubrimiento electrónico y, por extensión, los recursos de TI en general:

Habilitación de la colaboración remota: el acceso controlado, aunque remoto, a la nube es compatible con el tipo de colaboración que se ha vuelto fundamental para la comunicación distribuida, especialmente en los últimos meses. “Si hay un bufete de abogados con el que trabaja para obtener asesores externos, hay toda una gama: socios, asociados, personal de TI, asistentes legales, soporte en litigios, todo un ecosistema de personas que necesitan estar en esta plataforma, especialmente en varias organizaciones, ”Señaló Shankar.

Elasticidad: la capacidad de la nube para aprovisionar energía de cómputo bajo demanda para cargas de trabajo computacionalmente intensas, como el análisis cognitivo (que se puede reducir para abordar las preocupaciones de costos) es casi imposible de duplicar en las instalaciones. “Un proveedor de SaaS por su propia naturaleza ha acomodado sus recursos informáticos para poder aplicar rápidamente un modelo de aprendizaje automático y luego retroceder para simplemente revisar un documento”, dijo David Carns, director de ingresos de Casepoint.

Escalabilidad: además del beneficio de elasticidad de la nube a la que hizo referencia Carns, existe una escalabilidad horizontal que admite dicho aprovisionamiento de recursos. Esto se correlaciona con su almacenamiento económico mediante el cual las organizaciones pueden almacenar de manera económica “conjuntos de datos muy grandes que afectan a 20 unidades de negocios diferentes dentro de una empresa, tal vez 50 o 60 aplicaciones diferentes, y cientos de miles de usuarios”, observó Michael Jack, vicepresidente de Global ventas en Datadobi.

Está claro que el e-discovery es un microcosmos del macrocosmos de la gestión de datos. Ganar en la nube con el primero ilustra cómo hacerlo con el segundo.

Análisis avanzado

Aunque el análisis de descubrimiento electrónico puede no ser el más sofisticado, ofrece una propuesta de valor central que la mayoría de las organizaciones no pueden permitirse renunciar. Implementado en la nube, el análisis de descubrimiento electrónico permite a los usuarios comerciales encontrar rápidamente los datos más significativos para ayudarlos a hacer su trabajo. Estas plataformas facilitan el proceso de revisión asistida por tecnología (TAR) a través del aprendizaje supervisado. En este proceso, los usuarios finales entrenan modelos de aprendizaje automático indicando manualmente la fracción de un corpus que es relevante para su caso. Este enfoque permite a las empresas reducir el tiempo y el costo de buscar documentos detectables entre “un 30% y un 50% debido al enriquecimiento, los análisis y la priorización de la IA”, explicó Kiwi Camara, CEO de DISCO. “En un caso de un millón de dólares, podría ahorrar $ 300,000”.

Los ejemplos etiquetados de los usuarios finales forman la base de la capacidad de estos modelos para encontrar resultados similares a escala. También priorizan los resultados en función de las puntuaciones de confianza para “identificar los realmente relevantes para su caso”, observó Shankar. Esta capacidad es fundamental para los litigios porque “muchos casos legales se resuelven antes de ir a juicio”, explicó Carns. “De hecho, diría que la mayoría lo hace. El truco no es ser exhaustivo el primer día ”, dijo. En cambio, la idea es recopilar la información más destacada el primer día para tomar una decisión sobre si sería beneficioso o no resolver un caso temprano. Este paradigma ad hoc de autoservicio de entrenamiento de modelos de IA para informar la acción inmediata es un enfoque que es aplicable a cualquier usuario empresarial que necesite tomar decisiones basadas en datos.

Gestión de metadatos

El principal desafío del descubrimiento electrónico es crear el corpus de documentos sobre los que realizar análisis avanzados. Esto es paralelo al desafío de la mayoría de los proyectos de ciencia de datos o BI. Para estos esfuerzos, las organizaciones deben seleccionar datos apropiados del “volumen de datos que la gente está creando, que está creciendo a un ritmo más rápido que nunca”, comentó Shankar. El elemento básico de la gobernanza de datos de la gestión de metadatos proporciona una utilidad binaria para los pasos de procesamiento y recopilación de datos forenses de e-discovery. Las organizaciones inicialmente recopilan datos a través de “el metaconjunto de datos antes de pasar al subconjunto de datos”, dijo Jack. Una vez que los datos relevantes se han analizado de acuerdo con metadatos, como rangos de fechas, por ejemplo, generalmente se compilan en la nube.

Enriquecer los archivos con metadatos adicionales es fundamental para el procesamiento, que es una pieza de datos individual de Carns “. Por lo general, cuantos más metadatos haya sobre los activos de datos, más útiles serán esos activos para las aplicaciones posteriores, como la exploración, búsqueda y visualización de datos. Además, esta información es vital para etiquetar y catalogar datos con estos fines.

Según Camara, los casos de uso para enriquecer archivos con metadatos incluyen la capacidad de ubicar documentos similares entre duplicados, lo cual es útil para identificar múltiples versiones de un contrato o una presentación regulatoria. Otros ejemplos implican agregar metadatos sobre la comunicación que denota qué partes se estaban comunicando y desarrollos importantes, como picos o ausencias inexplicables en la correspondencia. Los metadatos ofrecen un valor crítico para mejorar la capacidad de descubrimiento de elementos procesables, ya que “el resultado de estas demandas masivas (hemos tenido acuerdos por cientos de millones de dólares para los clientes) se basa en lo que se encuentre”, señaló Shankar.

Exploración de datos, visualizaciones de datos

Una vez que se han agregado esos metadatos, las organizaciones los extraen junto con los elementos de datos pertinentes para comenzar el proceso de exploración de datos. Según Carns, “primero tienes que identificar los componentes para poder aplicar todas estas visualizaciones, etc.” Las visualizaciones de datos son fundamentales para la exploración de datos, ya que permiten a las organizaciones comprender y etiquetar datos de acuerdo con cualquier caso de uso singular, como cargar aplicaciones o ejecutar análisis en la nube. A menudo, las plataformas de descubrimiento electrónico incluyen visualizaciones dinámicas e interactivas, como líneas de tiempo, que permiten a los usuarios ver una progresión de documentos o eventos detallados en ellos. Por ejemplo, una línea de tiempo que ilustra eventos críticos en el escándalo de Enron podría representar las diversas entidades ficticias y reales que creó la antigua potencia energética, la comunicación entre sus constituyentes,

“Todo ese tipo de análisis es básicamente imposible de hacer si todo lo que está haciendo es realizar búsquedas o mirar los documentos uno por uno”, dijo Camara. “Necesita una interfaz visual que le muestre esas relaciones y luego le permita interactuar con ellas”. Dicha funcionalidad es esencial para beneficiarse de fusiones y adquisiciones en las que las posibles empresas envían grandes volúmenes de documentos, dijo Shankar. “Tienes que tomar una determinación en un corto período de tiempo si comprar o no filtrar información de gran volumen rápidamente es bastante valioso”.

Búsqueda y descubrimiento de datos

La búsqueda es una herramienta de descubrimiento de datos que se puede utilizar para informar análisis posteriores para el descubrimiento electrónico u otros casos de uso. De manera similar a las visualizaciones, la eficacia de la búsqueda depende del detalle y la precisión de la fase de enriquecimiento y extracción de metadatos, ya que “si hace un mal trabajo al extraer información de sus datos, hará un mal trabajo al buscarlos”, señaló Shankar. . La mayoría de las plataformas de e-descubrimiento en la nube involucran la búsqueda en lenguaje natural y lo que Camara describió como búsqueda booleana basada en términos y conectores tradicionales, que permite a los profesionales usar conectores de proximidad y ajustadores difusos para especificar lo que quieren.

La búsqueda semántica es útil para clasificar documentos en temas relacionados semánticamente. “Esos temas son dimensiones de metadatos que están disponibles en búsquedas y análisis”, dijo Camara. Las organizaciones pueden, por ejemplo, utilizar la búsqueda semántica para localizar todos los documentos recopilados de un testigo específico para saber qué temas discutieron. Alternativamente, esta capacidad permite a las organizaciones revisar documentos individuales, identificar temas importantes en ellos y ver otros documentos relacionados con el tema. Estas mismas técnicas son de aplicación casi universal para seleccionar datos para proyectos de ciencia de datos o análisis de negocios.

Integridad de los datos 

La integridad de los datos es otro aspecto del gobierno de los datos (relacionado con la calidad de los datos) que es indispensable para el descubrimiento electrónico o cualquier trabajo de análisis de misión crítica. Además, las preocupaciones sobre la integridad de los datos aumentan al migrar datos a la nube o entre proveedores de la nube. Sin embargo, todos los ahorros de costos por la conveniencia de estas plataformas de nube colaborativas centralizadas se anularían si no fuera posible demostrar que los datos que se movieron de la plataforma A a la plataforma B eran los mismos datos, razonó Jack. Si no se pudiera probar, entonces no tendría “absolutamente nada”, dijo. En consecuencia, la mayoría de las opciones de descubrimiento electrónico contienen medidas explícitas para una cadena de custodia que demuestran la inmutabilidad de los datos transferidos desde el origen a los sistemas de destino en la nube.

Técnicas como el hash o la toma de huellas dactilares implican “una especie de algoritmos criptográficos que muestran efectivamente que un documento no ha cambiado”, explicó Shankar. También existe una gran seguridad y permisos en torno al acceso, que generalmente es de solo lectura. Los paralelos entre la cadena de custodia y la procedencia de los datos (que son cruciales para la mayoría de los esfuerzos de gobernanza de datos y cumplimiento normativo) son evidentes. La primera es una “cadena de operaciones y manipulaciones que ocurren sobre la evidencia, por lo que semanas o meses después la gente no puede afirmar que el objeto no estaba allí o que es falso, y saben perfectamente cómo se llevó el objeto a la sala de pruebas”, dijo Carl. D’Halluin, CTO de Datadobi. La procedencia de los datos proporciona este tipo de trazabilidad para los datos aprovechados en análisis y aplicaciones. Ambos son fundamentales para confiar en los datos,

Arquitectura de la nube

La confianza implícita en la integridad de los datos del e-discovery refleja la confianza necesaria para depender de los datos para cualquier proceso repetible en toda la empresa, razón por la cual existe el gobierno de datos. Visto desde esta perspectiva, el e-discovery funciona como un medio para activar los protocolos de gobernanza para validar dicha dependencia para las solicitudes de acceso de los sujetos, el cumplimiento normativo y los costosos litigios. Todas esas piezas, desde traer datos hasta hacer uso de análisis, revisar, categorizar y producir datos, son parte de un proceso contiguo, dijo Carns. Desde los bloqueos de COVID-19 y el cambio a trabajar desde casa, también ha existido una gran dependencia de que esas tecnologías estén basadas en la web o en un modelo basado en SaaS, agregó.

La arquitectura en la nube no solo admite la colaboración remota y la elasticidad necesarias para la capacitación o la implementación de modelos de aprendizaje automático a escala, sino que también lo hace con la supervisión práctica necesaria para interactuar continuamente con diversas partes. Permite a la empresa mantener un control completo sobre sus datos mientras otorga a usuarios específicos acceso limitado a ellos con el sistema de permisos del software subyacente. Según Camara, este modelo funciona como “un depósito central para todos sus datos legales, en lugar de enviar datos a todo el mundo”. Además, ese repositorio y su acceso se basan en el modelo de costo operativo de la mayoría de las nubes públicas, lo que aumenta aún más el valor de esta arquitectura.

Del microcosmos al macrocosmos

Las funciones centrales del proceso de descubrimiento electrónico se parecen mucho a las funciones de uso de datos para la mayoría de las oportunidades de mitigación de riesgos (como análisis de seguridad para ciberseguridad) o de monetización (BI). El hecho de que ahora tengan lugar en la nube es probablemente un indicador de la dirección en la que se dirige el panorama de datos en su conjunto. A pesar de los pasos específicos que abarca el e-discovery (gestión de retenciones legales, colecciones forenses, procesamiento, TAR y revisión), se utiliza alguna variación de este proceso en su conjunto para la mayoría de las implementaciones analíticas.

“Lo que ciertamente hemos encontrado en los últimos años y Dios mío, ciertamente durante los últimos meses, es que la tecnología de e-discovery se está utilizando aún más ampliamente para el descubrimiento de datos en general. Quizás ya no en lo que se refiere específicamente a los litigios, sino a cualquier número de casos de uso que son importantes para las empresas estadounidenses ”, dijo Carns.

Posteriormente, las empresas estadounidenses no solo deben prestar atención a lo que implican esos casos de uso, sino también a cómo se diseñan y por qué.

Fuente: https://www.kmworld.com/Articles/Editorial/Features/The-secret-of-the-cloud-Remote-collaboration-elasticity-and-the-e-discovery-paradigm-142510.aspx

Documento relacionado

Deja una respuesta