por Jorge Anadiotis
Vuelve Transform 2022 en persona el 19 de julio y virtualmente del 20 al 28 de julio. Únase a los líderes de inteligencia artificial y datos para charlas perspicaces y oportunidades emocionantes para establecer contactos. Registrarse
Ya sea que esté genuinamente interesado en obtener información y resolver problemas usando datos, o simplemente atraído por lo que LinkedIn ha llamado “la carrera más prometedora” y Glassdoor como el “mejor trabajo en Estados Unidos”, es probable que esté familiarizado con la ciencia de datos. Pero, ¿qué pasa con la ciencia de datos gráficos?
Como explicamos anteriormente , los gráficos son una estructura de datos universal con manifestaciones que abarcan un amplio espectro: desde el análisis hasta las bases de datos, y desde la gestión del conocimiento hasta la ciencia de datos, el aprendizaje automático e incluso el hardware.
La ciencia de datos de gráficos es cuando desea responder preguntas, no solo con sus datos, sino también con las conexiones entre sus puntos de datos: esa es la explicación de 30 segundos, según Alicia Frame.
Frame es el director sénior de gestión de productos para ciencia de datos en Neo4j , un proveedor líder de bases de datos de gráficos. Tiene un doctorado en biología computacional y ha pasado 10 años como científica de datos en ejercicio trabajando con datos conectados.
Cuando se unió a Neo4j hace unos tres años, se propuso crear la mejor solución de su clase para manejar datos conectados para científicos de datos. Hoy, el producto Frame lidera en Neo4j, acertadamente llamado Graph Data Science , celebra su segundo aniversario con la versión 2.0, que trae algunos avances importantes: nuevas funciones, un cliente Python nativo y disponibilidad como un servicio administrado bajo el nombre AuraDS. en la nube de Google.
Nos reunimos con Frame para hablar sobre el concepto de la ciencia de datos gráficos y el producto de la ciencia de datos gráficos.
El concepto: ciencia de datos gráficos
El objetivo de la ciencia de datos de gráficos es aprovechar las relaciones en los datos. La mayoría de los científicos de datos trabajan con datos en formatos tabulares. Sin embargo, para obtener mejores conocimientos, para responder preguntas que no puede responder sin aprovechar las conexiones, o simplemente para representar sus datos de manera más fiel, el gráfico es clave.
Como explicó Frame, eso puede significar usar consultas gráficas para encontrar los patrones que sabe que existen, o usar métodos no supervisados como algoritmos gráficos para filtrar datos y descubrir patrones que debería estar mirando. También puede significar usar el aprendizaje automático supervisado en el que en realidad estás clasificando, ¿qué tipo de gráfico es este? ¿O dónde se formará una relación en el futuro?
El producto: Graph Data Science
En cuanto al producto Graph Data Science (GDS), es una incorporación relativamente nueva al ecosistema Neo4j, con un doble objetivo. Por un lado, quiere dirigirse a los científicos de datos, así como a los analistas de negocios y analistas de datos, que no necesariamente han sido usuarios de bases de datos de gráficos.
La principal propuesta de valor de GDS para ellos es que no solo les brinda un medio para almacenar datos conectados en una forma conectada, sino también un único espacio de trabajo y un entorno para hacer todo, desde análisis de datos, consulta de persistencia, capacitación y desarrollo de modelos, Marco dijo. No hay ETL involucrado, porque los datos ya están almacenados como un gráfico en Neo4j.
Pero luego, GDS también tiene como objetivo servir a la audiencia más tradicional de Neo4j: los desarrolladores. Frame se refirió a cómo Meredith Corporation usó Neo4j para construir sus viajes de usuario. Como seguimiento de ese caso de uso, se utilizó GDS para identificar lectores anónimos en sus sitios web.
El caso de uso surgió de un desarrollador de Neo4j de mucho tiempo que disfrutó del producto. Eso condujo a una exploración de formas de obtener más valor y, finalmente, a usar GDS para resolver un problema. “Dijeron: espera un segundo, este algoritmo [gráfico] resuelve esta pregunta de aplicación realmente compleja que tenemos y encaja perfectamente en nuestra tubería”, dijo Frame.
La interfaz de usuario amigable para los científicos de datos de GDS
Hacer que GDS sea fácil de usar para todos los usuarios potenciales fue una prioridad principal para esta versión, y la disponibilidad de GDS como una oferta de nube administrada es parte de eso. Neo4j ya ha hecho que su oferta de nube administrada llamada Aura esté disponible en todas las principales plataformas de nube. Después de unos meses de vista previa, GDS ya está disponible en Google Cloud con el nombre AuraDS.
Como explicó Frame, AuraDS se ha reconstruido desde cero para proporcionar una experiencia personalizada creada para los científicos de datos. Está construido sobre el sustrato Aura, pero con una configuración diferente, optimizado para una configuración diferente. Esto toca muchos aspectos.
En el frente técnico, las cargas de trabajo de ciencia de datos suelen hacer un uso mucho más intensivo de la memoria y utilizan más subprocesos que las cargas de trabajo de base de datos. El equipo quería asegurarse de tener la configuración correcta para que los científicos de datos tuvieran éxito, dijo Frame. Pero donde invirtieron la mayor parte de su tiempo y esfuerzo fue en la creación de una interfaz de usuario que funcione para los científicos de datos, agregó.
Las necesidades y habilidades de los científicos de datos son diferentes a las de los desarrolladores: están interesados en obtener valor de sus datos, encontrar nuevos conocimientos y construir modelos más predictivos, no en configurar o mantener una base de datos. AuraDS tiene una interfaz de usuario completamente reconstruida que hace que la experiencia del usuario para los científicos de datos sea más amigable, dijo Frame.
Ofreció el ejemplo de ayudar a los usuarios con las pautas de tamaño: obtener estimaciones de la cantidad de nodos y bordes en los gráficos con los que quieren trabajar, así como los algoritmos que quieren ejecutar, y brindar recomendaciones sobre los recursos que necesitarán. Frame también dijo que se han agregado una serie de métricas que son relevantes para los científicos de datos, como el uso de la CPU y el uso de la memoria.
Reunirse con científicos de datos dondequiera que estén
Otra mejora clave es el cliente Python nativo. Primero, porque permite a los científicos de datos trabajar directamente desde Python, que es la opción más popular para ellos, en lugar de tener que pasar por Cypher, el lenguaje de consulta de Neo4j. En segundo lugar, porque eso permite trabajar con AuraDS y GDS directamente a través de portátiles y obtener resultados a través de marcos de datos, en lugar de tener que ir a través de la interfaz de usuario de Neo4j. Los usuarios pueden elegir lo que funciona mejor para ellos.
Esto ejemplifica un punto más amplio para AuraDS: su disponibilidad general, funciones avanzadas que ahora también están disponibles en GDS. Otro ejemplo de esto es la persistencia y la copia de seguridad, impulsada por AuraDS pero ahora también disponible en GDS autogestionado. Como reconoció Frame, trabajar en la memoria es un arma de doble filo. Permite el procesamiento rápido de gráficos con grandes volúmenes, pero también agrega algunas preocupaciones.
Primero, si los resultados del procesamiento deben persistir, entonces el usuario debe encargarse de eso. En segundo lugar, si hay una interrupción antes de que finalice el procesamiento, entonces el trabajo se pierde y debe comenzar de nuevo. Frame dijo que esto no había sido un gran problema porque la ejecución de algoritmos gráficos en la memoria es rápida y existen medidas de seguridad para evitar que se destruya la base de datos; sin embargo, tener un estado intermedio persistente ayuda.
Compatibilidad y sincronización
También hay más mejoras operativas. GDS ahora es más compatible con los clústeres transaccionales. Eso significa que no tiene que preocuparse por copiar datos de su clúster a una sola instancia o recuperar datos de esa instancia de ciencia de datos dedicada a su clúster, dijo Frame.
Esa preocupación desaparece y no terminas con algo que no está configurado para ninguna carga de trabajo, agregó. Entonces, lo que puede hacer ahora es adjuntar un nodo GDS dedicado a su clúster. Obtiene automáticamente esos datos actualizados en tiempo real.
Las cargas de trabajo de ciencia de datos pueden ejecutarse sin interferir con las cargas de trabajo transaccionales, y la sincronización se maneja internamente para que no tenga que preocuparse por ETL. Frame resaltó esta mejora y dijo que los clientes la estaban implementando y ejecutando incluso antes de su lanzamiento. Además, las instancias ahora se pueden pausar, lo que reduce el costo, sin perder resultados.
Integraciones y mejoras
GDS 2.0 también trae más capacidades de aprendizaje automático y AutoML. Se presenta la capacidad de crear canalizaciones de ML para tareas como predicciones de enlaces. Esto significa poder completar las relaciones faltantes en su gráfico o clasificación de nodos; por ejemplo, completar las etiquetas que faltan, como caracterizar las transacciones como fraudulentas o normales.
Frame describió cómo GDS introduce el concepto de un catálogo de tuberías. Esto permite a los usuarios indicar que desean entrenar un modelo para un objetivo final específico, y luego GDS los ayudará en los pasos intermedios, como generar incrustaciones y seleccionar el modelo con mejor rendimiento.
Esto también se relaciona con una historia más amplia: integraciones y, más específicamente, integración con Google y su plataforma Vertex AI . Neo4j y Google son socios, y esta es la razón por la que AuraDS se implementó por primera vez en Google Cloud. Además, AuraDS y Vertex AI pueden integrarse, y Neo4j y Google han colaborado y evangelizado en torno a eso, dijo Frame.
Las nuevas integraciones son adiciones importantes a GDS/AuraDS. Como señaló Frame, los científicos de datos no operan en el vacío, por lo que es clave ayudarlos a ingresar y sacar datos de GDS. GDS 2.0 admite conectores Neo4j con Apache Spark y herramientas de BI como Microsoft Power BI, Tableau y Looker. Además, se han agregado integraciones con Dataiku y KNIME.
Por último, pero no menos importante, GDS 2.0 trae nuevos algoritmos, así como mejoras a los existentes. La búsqueda primero en amplitud, la búsqueda primero en profundidad, los vecinos más cercanos K, el paso delta y funciones similares ahora han alcanzado el nivel de “graduación de nivel de producto” según Neo4j.
El panorama
En general, GDS recibe una importante actualización y renovación. El lanzamiento de AuraDS trae los beneficios de la nube, al mismo tiempo que impulsa a GDS. Frame dijo que GDS experimentó un crecimiento interanual de más del 370 % en la cantidad de clientes empresariales, así como cientos de miles de descargas. GDS 2.0 y AuraDS llevan la ciencia de datos gráficos un paso más cerca de la adopción generalizada.
Fuente: https://venturebeat.com/2022/04/12/graph-data-science-what-you-need-to-know/