Imagen: Andriy Onufriyenko / Getty Images

Durante una semana este verano, Taylor y su compañera de piso usaron cámaras GoPro sujetas a la frente mientras pintaban, esculpían y hacían tareas domésticas. Entrenaban un modelo de visión artificial, sincronizando cuidadosamente sus grabaciones para que el sistema pudiera captar múltiples ángulos del mismo comportamiento. Era un trabajo difícil en muchos sentidos, pero les pagaban bien, y le permitía a Taylor dedicar la mayor parte del día a crear arte. 

por Russell Brandom

“Nos despertábamos, hacíamos nuestra rutina habitual, nos poníamos las cámaras en la cabeza y sincronizamos las horas”, me contó. “Luego preparábamos el desayuno y lavábamos los platos. Después, cada uno por su lado, nos dedicábamos al arte”. 

Los contrataron para producir cinco horas de material sincronizado cada día, pero Taylor rápidamente aprendió que necesitaba asignar siete horas al día al trabajo, para dejar suficiente tiempo para los descansos y la recuperación física. 

“Te daría dolor de cabeza”, dijo. “Te lo quitas y solo queda un cuadrado rojo en la frente”. 

Taylor, quien pidió no revelar su apellido, trabajaba como freelance de datos para Turing, una empresa de IA que la conectó con TechCrunch. El objetivo de Turing no era enseñar a la IA a crear pinturas al óleo, sino adquirir habilidades más abstractas en torno a la resolución secuencial de problemas y el razonamiento visual. A diferencia de un modelo de lenguaje extenso, el modelo de visión de Turing se entrenaría completamente en video, y la mayor parte de la información la recopilaría directamente Turing. 

Además de artistas como Taylor, Turing está contratando chefs, obreros de la construcción y electricistas, es decir, cualquier persona que trabaje con las manos. Sudarshan Sivaraman, director de Inteligencia Artificial (IA) de Turing, declaró a TechCrunch que la recopilación manual es la única forma de obtener un conjunto de datos lo suficientemente variado. 

“Lo estamos haciendo para diversos tipos de trabajo manual, de modo que tengamos una diversidad de datos en la fase de preentrenamiento”, declaró Sivaraman a TechCrunch. “Después de recopilar toda esta información, los modelos podrán comprender cómo se realiza una tarea específica”. 

El trabajo de Turing sobre modelos de visión forma parte de un cambio creciente en la forma en que las empresas de IA gestionan los datos. Si bien antes los conjuntos de entrenamiento se extraían gratuitamente de la web o se obtenían de anotadores mal pagados, ahora las empresas pagan grandes cantidades por datos cuidadosamente seleccionados.  

Con el poder de la IA ya consolidado, las empresas buscan datos de entrenamiento patentados como una ventaja competitiva. Y en lugar de subcontratar la tarea, a menudo la asumen ellas mismas. 

La empresa de correo electrónico Fyxer , que utiliza modelos de IA para ordenar correos electrónicos y redactar respuestas, es un ejemplo.  

Tras algunos experimentos iniciales, el fundador Richard Hollingsworth descubrió que el mejor enfoque era usar una matriz de modelos pequeños con datos de entrenamiento muy específicos. A diferencia de Turing, Fyxer se basa en el modelo base de otra empresa, pero la idea subyacente es la misma.  

“Nos dimos cuenta de que la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento”, me dijo Hollingsworth. 

En la práctica, eso implicó algunas decisiones de personal poco convencionales. Al principio, los ingenieros y gerentes de Fyxer a veces eran superados en número cuatro a uno por los asistentes ejecutivos necesarios para entrenar el modelo, dice Hollingsworth. 

“Contratamos a muchos asistentes ejecutivos con experiencia, ya que necesitábamos capacitarlos sobre los fundamentos de si se debe responder a un correo electrónico”, declaró a TechCrunch. “Es un problema muy humano. Encontrar personas competentes es muy difícil”. 

El ritmo de recopilación de datos nunca disminuyó, pero con el tiempo, Hollingsworth se volvió más exigente con los conjuntos de datos, prefiriendo conjuntos más pequeños y mejor seleccionados a la hora del postentrenamiento. En sus palabras, «la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento». 

Esto es especialmente cierto cuando se utilizan datos sintéticos, lo que amplía tanto el alcance de los posibles escenarios de entrenamiento como el impacto de cualquier fallo en el conjunto de datos original. En cuanto a la visión, Turing estima que entre el 75 % y el 80 % de sus datos son sintéticos, extrapolados de los vídeos originales de GoPro. Sin embargo, esto refuerza aún más la importancia de mantener la alta calidad del conjunto de datos original. 

“Si los datos previos al entrenamiento no son de buena calidad, todo lo que se haga con los datos sintéticos tampoco será de buena calidad”, afirma Sivaraman. 

Más allá de las preocupaciones por la calidad, existe una poderosa lógica competitiva detrás de mantener la recopilación de datos internamente. Para Fyxer, el arduo trabajo de recopilación de datos es una de las mejores defensas que la empresa tiene frente a la competencia. En opinión de Hollingsworth, cualquiera puede integrar un modelo de código abierto en su producto, pero no todos pueden encontrar anotadores expertos que lo conviertan en un producto funcional. 

“Creemos que la mejor manera de hacerlo es a través de los datos”, dijo a TechCrunch, “mediante la creación de modelos personalizados y mediante capacitación de datos de alta calidad y dirigida por personas”. 

Fuente: https://techcrunch.com/2025/10/16/why-ai-startups-are-taking-data-into-their-own-hands/

Deja una respuesta