Grandes conjuntos de datos como ImageNet han sobrealimentado los últimos 10 años de la visión de la IA, pero son difíciles de producir y contienen sesgos. Los conjuntos de datos generados por computadora ofrecen una alternativa.
La mayoría de los sistemas de reconocimiento de imágenes se entrenan utilizando grandes bases de datos que contienen millones de fotos de objetos cotidianos, desde serpientes hasta batidos y zapatos. Con la exposición repetida, las IA aprenden a distinguir un tipo de objeto de otro. Ahora, investigadores en Japón han demostrado que las IA pueden comenzar a aprender a reconocer objetos cotidianos al ser entrenados en fractales generados por computadora.
Es una idea extraña, pero podría ser un gran problema. La generación automática de datos de entrenamiento es una tendencia interesante en el aprendizaje automático. Y el uso de un suministro interminable de imágenes sintéticas en lugar de fotos extraídas de Internet evita problemas con los conjuntos de datos existentes hechos a mano.
Problemas de entrenamiento: el entrenamiento previo es una fase en la que una IA aprende algunas habilidades básicas antes de ser entrenada en datos más especializados. Los modelos previamente entrenados permiten que más personas utilicen una potente IA. En lugar de tener que entrenar un modelo desde cero, pueden adaptar uno existente a sus necesidades. Por ejemplo, un sistema para diagnosticar exploraciones médicas podría aprender primero a identificar características visuales básicas, como la forma y el contorno, al ser previamente entrenado en una base de datos de objetos cotidianos, como ImageNet , que contiene más de 14 millones de fotos. Luego, se ajustará en una base de datos más pequeña de imágenes médicas hasta que reconozca signos sutiles de enfermedad.
El problema es que ensamblar un conjunto de datos como ImageNet a mano requiere mucho tiempo y esfuerzo. Las imágenes suelen estar etiquetadas por trabajadores colectivos mal pagados . Los conjuntos de datos también pueden contener etiquetas sexistas o racistas que pueden sesgar un modelo de manera oculta, así como imágenes de personas que han sido incluidas sin su consentimiento. Existe evidencia de que estos prejuicios pueden infiltrarse incluso en el entrenamiento previo .
Formas naturales : los fractales se pueden encontrar en todo, desde árboles y flores hasta nubes y olas. Esto hizo que el equipo del Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST) de Japón, el Instituto de Tecnología de Tokio y la Universidad Denki de Tokio se preguntaran si estos patrones podrían usarse para enseñar a un sistema automatizado los conceptos básicos del reconocimiento de imágenes, en lugar de usar fotos. de objetos reales.
Los investigadores crearon FractalDB, un sinfín de fractales generados por computadora. Algunas parecen hojas; otros parecen copos de nieve o caracoles. Cada grupo de patrones similares recibió automáticamente una etiqueta. Luego usaron FractalDB para entrenar previamente una red neuronal convolucional, un tipo de modelo de aprendizaje profundo que se usa comúnmente en los sistemas de reconocimiento de imágenes, antes de completar su entrenamiento con un conjunto de imágenes reales. Descubrieron que funcionaba casi tan bien como los modelos entrenados con conjuntos de datos de última generación, incluidos ImageNet y Places , que contiene 2,5 millones de imágenes de escenas al aire libre.
¿Funciona? Anh Nguyen de la Universidad de Auburn en Alabama, que no participó en el estudio, no está convencida de que FractalDB sea todavía rival para ImageNet. Ha estudiado cómo los patrones abstractos pueden confundir los sistemas de reconocimiento de imágenes . “Existe una conexión entre este trabajo y los ejemplos que engañan a las máquinas”, dice. Le gustaría explorar cómo funciona este nuevo enfoque con más detalle. Pero los investigadores japoneses piensan que con ajustes en su enfoque, los conjuntos de datos generados por computadora como FractalDB podrían reemplazar los existentes.
Por qué los fractales: los investigadores también intentaron entrenar su inteligencia artificial utilizando otras imágenes abstractas, incluidas las producidas con ruido Perlin , que crea patrones moteados, y curvas de Bezier , un tipo de curva utilizada en gráficos por computadora. Pero los fractales dieron los mejores resultados. “La geometría fractal existe en el conocimiento de fondo del mundo”, dice el autor principal Hirokatsu Kataoka en AIST.