Ciencia de Datos

AutoML está preparado para convertir a los desarrolladores en científicos de datos, y viceversa. Así es como AutoML cambiará radicalmente la ciencia de datos para mejor.

por Eric Miller

Ciencia de Datos

En la próxima década, el papel del científico de datos tal como lo conocemos será muy diferente al actual. Pero no se preocupe, nadie predice la pérdida de puestos de trabajo, solo ha cambiado de trabajo.

Los científicos de datos estarán bien: según la Oficina de Estadísticas Laborales, se prevé que el papel crezca a un ritmo superior al promedio hasta 2029. Pero los avances en la tecnología serán el impulso para un gran cambio en las responsabilidades de un científico de datos y en el la forma en que las empresas abordan la analítica en su conjunto. Y las herramientas de AutoML , que ayudan a automatizar la canalización del aprendizaje automático desde los datos sin procesar hasta un modelo utilizable, liderarán esta revolución.

En 10 años, los científicos de datos tendrán conjuntos de habilidades y herramientas completamente diferentes, pero su función seguirá siendo la misma: servir como guías tecnológicos confiables y competentes que puedan dar sentido a datos complejos para resolver problemas comerciales.

AutoML democratiza la ciencia de datos

Hasta hace poco, los algoritmos y procesos de aprendizaje automático eran casi exclusivamente el dominio de roles de ciencia de datos más tradicionales: aquellos con educación formal y títulos avanzados, o que trabajaban para grandes corporaciones tecnológicas. Los científicos de datos han desempeñado un papel invaluable en cada parte del espectro de desarrollo del aprendizaje automático. Pero con el tiempo, su papel se volverá más colaborativo y estratégico. Con herramientas como AutoML para automatizar algunas de sus habilidades más académicas, los científicos de datos pueden enfocarse en guiar a las organizaciones hacia soluciones a los problemas comerciales a través de los datos.https://imasdk.googleapis.com/js/core/bridge3.426.0_en.html#goog_74590745Volumen 0% 

En muchos sentidos, esto se debe a que AutoML democratiza el esfuerzo de poner en práctica el aprendizaje automático. Los proveedores, desde las nuevas empresas hasta los hiperescaladores en la nube, han lanzado soluciones lo suficientemente fáciles para que los desarrolladores las utilicen y experimenten sin una gran barrera educativa o experiencial de entrada. De manera similar, algunas aplicaciones de AutoML son lo suficientemente intuitivas y simples como para que los trabajadores no técnicos puedan intentar crear soluciones a problemas en sus propios departamentos, creando una especie de “científico de datos ciudadano” dentro de las organizaciones.

Para explorar las posibilidades que estos tipos de herramientas desbloquean tanto para los desarrolladores como para los científicos de datos, primero debemos comprender el estado actual de la ciencia de datos en lo que respecta al desarrollo del aprendizaje automático. Es más fácil de entender cuando se coloca en una escala de madurez.

Las organizaciones más pequeñas y las empresas con roles más tradicionales a cargo de la transformación digital (es decir, no científicos de datos con formación clásica) suelen caer en este extremo de esta escala. En este momento, son los principales clientes de las aplicaciones de aprendizaje automático listas para usar, que están más orientadas a una audiencia que no está familiarizada con las complejidades del aprendizaje automático.

  • Ventajas: estas aplicaciones llave en mano tienden a ser fáciles de implementar y relativamente baratas y fáciles de implementar. Para las empresas más pequeñas con un proceso muy específico para automatizar o mejorar, es probable que existan varias opciones viables en el mercado. La baja barrera de entrada hace que estas aplicaciones sean perfectas para los científicos de datos que ingresan al aprendizaje automático por primera vez. Debido a que algunas de las aplicaciones son tan intuitivas, incluso permiten a los empleados no técnicos la oportunidad de experimentar con la automatización y las capacidades de datos avanzadas, lo que podría introducir una valiosa caja de arena en una organización.
  • Contras: esta clase de aplicaciones de aprendizaje automático es notoriamente inflexible. Si bien pueden ser fáciles de implementar, no se personalizan fácilmente. Como tal, ciertos niveles de precisión pueden ser imposibles para ciertas aplicaciones. Además, estas aplicaciones pueden verse severamente limitadas por su dependencia de modelos y datos previamente entrenados.

Ejemplos de estas aplicaciones incluyen Amazon Comprehend, Amazon Lex y Amazon Forecast de Amazon Web Services y Azure Speech Services y Azure Language Understanding (LUIS) de Microsoft Azure. Estas herramientas suelen ser suficientes para que los científicos de datos emergentes den los primeros pasos en el aprendizaje automático y lleven a sus organizaciones más abajo en el espectro de madurez.

Soluciones personalizables con AutoML

Las organizaciones con conjuntos de datos grandes pero relativamente comunes (piense en datos de transacciones de clientes o métricas de correo electrónico de marketing) necesitan más flexibilidad cuando utilizan el aprendizaje automático para resolver problemas. Ingrese AutoML. AutoML sigue los pasos de un flujo de trabajo de aprendizaje automático manual (descubrimiento de datos, análisis exploratorio de datos, ajuste de hiperparámetros, etc.) y los condensa en una pila configurable.

  • Ventajas: las aplicaciones de AutoML permiten ejecutar más experimentos con datos en un espacio más grande. Pero el verdadero superpoder de AutoML es la accesibilidad: se pueden crear configuraciones personalizadas y las entradas se pueden refinar con relativa facilidad. Además, AutoML no se crea exclusivamente con científicos de datos como audiencia. Los desarrolladores también pueden jugar fácilmente dentro de la caja de arena para incorporar elementos de aprendizaje automático en sus propios productos o proyectos.
  • Contras: si bien se acerca, las limitaciones de AutoML significan que la precisión en los resultados será difícil de perfeccionar. Debido a esto, los científicos de datos que poseen títulos y que llevan tarjetas a menudo desprecian las aplicaciones creadas con la ayuda de AutoML, incluso si el resultado es lo suficientemente preciso como para resolver el problema en cuestión.

Ejemplos de estas aplicaciones incluyen Amazon SageMaker AutoPilot o Google Cloud AutoML . Los científicos de datos dentro de una década sin duda necesitarán estar familiarizados con herramientas como estas. Al igual que un desarrollador que domina varios lenguajes de programación, los científicos de datos deberán dominar varios entornos de AutoML para ser considerados los mejores talentos.

Soluciones de aprendizaje automático “hechas a mano” y de cosecha propia

Las empresas a escala empresarial más grandes y las empresas Fortune 500 son donde se están desarrollando actualmente la mayoría de las aplicaciones de aprendizaje automático avanzadas y patentadas. Los científicos de datos de estas organizaciones forman parte de grandes equipos que perfeccionan los algoritmos de aprendizaje automático utilizando grandes cantidades de datos históricos de la empresa y construyen estas aplicaciones desde cero. Las aplicaciones personalizadas como estas solo son posibles con recursos y talento considerables, por lo que los beneficios y los riesgos son tan grandes.

  • Ventajas: como cualquier aplicación creada desde cero, el aprendizaje automático personalizado es “de vanguardia” y se basa en una comprensión profunda del problema en cuestión. También es más preciso, aunque solo sea por pequeños márgenes, que AutoML y las soluciones de aprendizaje automático listas para usar.
  • Contras: lograr que una aplicación de aprendizaje automático personalizada alcance ciertos umbrales de precisión puede ser extremadamente difícil y, a menudo, requiere un gran esfuerzo por parte de equipos de científicos de datos. Además, las opciones de aprendizaje automático personalizadas son las que requieren más tiempo y las más caras de desarrollar.

Un ejemplo de una solución de aprendizaje automático enrollada a mano es comenzar con un cuaderno Jupyter en blanco, importar datos manualmente y luego realizar cada paso desde el análisis exploratorio de datos hasta el ajuste del modelo a mano. Esto a menudo se logra escribiendo código personalizado utilizando marcos de aprendizaje automático de código abierto como Scikit-learn , TensorFlow , PyTorch y muchos otros. Este enfoque requiere un alto grado de experiencia e intuición, pero puede producir resultados que a menudo superan a los servicios de aprendizaje automático llave en mano y AutoML.

Herramientas como AutoML cambiarán las funciones y responsabilidades de la ciencia de datos durante los próximos 10 años. AutoML elimina la carga de desarrollar el aprendizaje automático desde cero de los científicos de datos y, en cambio, pone las posibilidades de la tecnología de aprendizaje automático directamente en manos de otros solucionadores de problemas. Con el tiempo libre para centrarse en lo que saben (los datos y los insumos mismos), los científicos de datos dentro de una década servirán como guías aún más valiosas para sus organizaciones.

Fuente: https://www.infoworld.com/article/3596894/todays-data-science-roles-wont-exist-in-10-years.html

Deja una respuesta