Un enfoque más simple (buenos datos, consultas SQL, declaraciones if / then) a menudo hace el trabajo.

por Matt Asay

Resulta que la mejor manera de hacer aprendizaje automático (ML) es a veces no hacer ningún aprendizaje automático. De hecho, según Eugene Yan , científico de Amazon Applied , “la primera regla del aprendizaje automático es comenzar sin el aprendizaje automático”.

¿Qué?

Sí, es genial presentar modelos de aprendizaje automático minuciosamente elaborados durante meses de arduo esfuerzo. Tampoco es necesariamente el enfoque más eficaz. No cuando existen métodos más sencillos y accesibles.

Puede ser una simplificación excesiva decir, como lo hizo  el científico de datos Noah Lorang hace años, que “los científicos de datos en su mayoría solo hacen aritmética”. Pero no está muy lejos, y ciertamente él y Yan tienen razón en que, por mucho que queramos complicar el proceso de poner los datos en funcionamiento, muchas veces es mejor comenzar de a poco.

Sobreventa de la complejidad

A los científicos de datos se les paga mucho. Entonces, tal vez sea tentador tratar de justificar ese cheque de pago envolviendo cosas como el análisis predictivo en una jerga complicada y modelos pesados. No lo hagas. La visión de Lorang sobre la ciencia de datos es tan cierta hoy como cuando la pronunció hace unos años: “Hay un subconjunto muy pequeño de problemas comerciales que se resuelven mejor con el aprendizaje automático; la mayoría de ellos solo necesitan buenos datos y una comprensión de lo que significan “. Lorang recomienda métodos más simples, como “consultas SQL para obtener datos, … aritmética básica sobre esos datos (calcular diferencias, percentiles, etc.), graficar los resultados y [escribir] párrafos de explicación o recomendación”.

No estoy sugiriendo que sea fácil. Estoy diciendo que el aprendizaje automático no es el punto de partida cuando se trata de obtener información a partir de los datos. Tampoco es el caso que se necesiten necesariamente grandes cantidades de datos. De hecho, como  sostiene Katelyn Gleason , CEO de Eligible , es importante “comenzar con los datos pequeños [porque] son ​​las anomalías visuales las que me han llevado a algunos de mis mejores hallazgos”. A veces puede ser suficiente trazar distribuciones para verificar patrones obvios.

Sí, es cierto: los datos pueden ser “lo suficientemente pequeños” como para que un humano pueda detectar patrones y descubrir conocimientos.

No es de extrañar entonces que el científico de datos de iRobot, Brandon Rohrer, sugiera descaradamente: “Cuando tenga un problema, cree dos soluciones: un transformador bayesiano profundo que se ejecuta en Kubernetes de múltiples nubes y una consulta SQL construida sobre una pila de suposiciones sumamente simplistas. Ponga uno en su currículum y el otro en producción. Todos se van a casa felices “.

Nuevamente, esto no quiere decir que nunca debas usar ML, y definitivamente no es un argumento de que ML no ofrece un valor real. Lejos de ahi. Es solo un argumento en contra de comenzar con ML. Para profundizar en el por qué, vale la pena revisar el artículo de Yan sobre el tema .

Los seres humanos están conociendo los datos

Primero, señala Yan, es importante reconocer lo difícil que es extraer significado de los datos, dados los ingredientes críticos: “Necesitas datos. Necesita una canalización sólida para respaldar sus flujos de datos. Y, sobre todo, necesita etiquetas de alta calidad “.

En otras palabras, las entradas son lo suficientemente complicadas como para que no sea particularmente útil comenzar lanzando modelos de aprendizaje automático al problema. En ese momento, solo está comenzando a conocer sus datos. Intente resolver el problema manualmente o con heurística (métodos prácticos o atajos). Yan destaca este razonamiento de Hamel Hussain, un ingeniero de aprendizaje automático en GitHub: “Te obligará a familiarizarte íntimamente con el problema y los datos, que es el primer paso más importante”.

Suponiendo que está tratando con datos tabulares, Yan dice que vale la pena comenzar con una muestra de los datos para ejecutar estadísticas, comenzando con correlaciones simples y visualizar los datos, tal vez usando diagramas de dispersión. Por ejemplo, en lugar de crear un modelo complicado de aprendizaje automático para las recomendaciones, simplemente podría “recomendar elementos de alto rendimiento del período anterior”, argumenta Yan, y luego buscar patrones en los resultados. Esto ayuda al practicante de ML a familiarizarse más con sus datos, lo que a su vez la ayudará a construir mejores modelos, si resultan necesarios.

¿Cuándo se vuelve necesario o al menos aconsejable el aprendizaje automático?

Según Yan, el aprendizaje automático comienza a tener sentido cuando el mantenimiento de su sistema heurístico sin ML se vuelve demasiado engorroso. En otras palabras, “después de tener una línea de base que no es de AA que funciona razonablemente bien, y el esfuerzo de mantener y mejorar esa línea de base supera el esfuerzo de construir e implementar un sistema basado en ML”.

Por supuesto, no existe una ciencia sólida sobre cuándo sucede esto, pero si sus heurísticas ya no son atajos prácticos y, en cambio, siguen rompiendo, es hora de considerar el aprendizaje automático, especialmente si tiene tuberías de datos sólidas y etiquetas de datos de alta calidad, lo que indica una buena datos.

Sí, es tentador comenzar con modelos complejos de ML, pero podría decirse que una de las habilidades más importantes que puede tener un científico de datos es el sentido común, saber cuándo confiar en el análisis de regresión o en algunas declaraciones si / entonces, en lugar de ML.

Fuente: https://www.infoworld.com/article/3634401/dont-rush-to-machine-learning.html

Deja una respuesta