Cloudflare se está posicionando en contra del raspado de contenido de IA, convirtiéndose en el primer proveedor de infraestructura de Internet en bloquear a los rastreadores de IA que recolectan contenido sin pedirlo ni pagarlo, una medida celebrada por gigantes de los medios de comunicación como The Atlantic, Fortune, TIME y The Associated Press.

por Anabelle Nicoud

La compañía dice que es el primer paso hacia la construcción de un sistema más justo para el contenido en línea, uno que proteja a los creadores de perder tráfico e ingresos, al mismo tiempo que cree una mejor experiencia para el público. El cofundador y director ejecutivo, Matthew Prince, escribió en el blog de Cloudflare: “Creemos que si podemos comenzar a puntuar y valorar el contenido no por la cantidad de tráfico que genera, sino por cuánto promueve el conocimiento, medido por cuánto llena los vacíos actuales en los motores de IA “queso suizo”, no solo ayudaremos a que los motores de IA mejoren más rápido, sino que también lo haremos. pero también potencialmente facilitar una nueva edad de oro de la creación de contenido de alto valor”.

La medida se produce en un momento en que las herramientas de búsqueda impulsadas por IA de empresas como OpenAI, Anthropic, Meta y Perplexity están remodelando la economía de la web. A diferencia de los motores de búsqueda tradicionales, estas herramientas no llevan a los usuarios de vuelta a los sitios de los editores. En su lugar, proporcionan respuestas directas, a menudo procedentes de contenido raspado, lo que reduce el tráfico del que dependen los editores para mantener su negocio. Además, el scraping está pasando factura a los servidores de los editores: el pasado mes de abril, Wikimedia, la organización sin ánimo de lucro que está detrás de Wikipedia, señaló que el 65% de su tráfico más caro procedía de bots. “Nuestro contenido es gratuito, nuestra infraestructura no lo es”, dijo la organización.

Un análisis reciente realizado por la herramienta de marketing Ahrefs señaló que los resúmenes de IA redujeron los clics en un 34,5%. “Si eres un creador de contenido, significa que tu información se está resumiendo y vendiendo, pero ya no obtienes ese tráfico”, dijo Prince durante una reciente conferencia de Axios. “Si el modelo de negocio de la web ha sido la búsqueda durante los últimos 30 años, y si la forma de obtener valor es vendiendo suscripciones, anuncios o fama, todas esas cosas van a desaparecer”.

La escala del raspado está creciendo rápidamente. La startup tecnológica Miso ha identificado 1.750 bots en los sitios de los editores a través de su proyecto Sentinel, un aumento del 35% desde febrero. Muchos de ellos evitan los muros de pago e ignoran robots.txt, y sus orígenes a menudo no están claros. “El desafío es que la mayoría de estos bots no son solo empresas de IA; simplemente no sabemos quiénes son”, dijo Lucky Gunasekara, cofundador y CEO de Miso, a IBM Think.

Algunos editores se están asociando con empresas de IA, otros están demandando, con al menos 12 demandas presentadas contra organizaciones fronterizas como OpenAI, Anthropic, Cohere y Perplexity. Pero hasta ahora, los tribunales han ofrecido poca claridad, y algunos jueces han determinado que el uso de contenido protegido por derechos de autor para el entrenamiento de IA podría entrar en el “uso justo”.


Cloudflare quiere salvar a Internet de los riesgos del contenido “sin clics”. ¿Lo logrará?

por Anabelle Nicoud

¿Puede Internet tal y como lo conocemos sobrevivir a la era de la IA? Cloudflare cree que puede, al menos cuando se trata de proteger a los creadores de contenido. El gigante tecnológico, que ayuda a administrar y asegurar el tráfico del 20% de la web, anunció esta semana que será el primer proveedor de infraestructura de Internet en bloquear a los rastreadores de IA que raspan sitios sin compensación ni permiso.

La medida, que fue bien recibida por gigantes de los medios como The AtlanticFortuneTIME y The Associated Press, así como por empresas tecnológicas como Pinterest y Reddit, es el primer paso hacia la construcción de un mercado de “pago por rastreo”, escribió el cofundador y CEO de Cloudflare, Matthew Prince.

“Cloudflare, junto con la mayoría de los principales editores y empresas de IA del mundo, está cambiando la configuración predeterminada para bloquear a los rastreadores de IA a menos que paguen a los creadores por su contenido”, escribió. “Ese contenido es el combustible que impulsa los motores de IA, por lo que es justo que los creadores de contenido sean compensados directamente por ello”.

“Pero eso es solo el comienzo. A continuación, trabajaremos en un mercado en el que los creadores de contenido y las empresas de IA, grandes y pequeñas, puedan reunirse. El tráfico siempre fue un mal indicador de valor. Creemos que podemos hacerlo mejor”.

El auge de los bots

Con el auge de la IA generativa y la búsqueda de IA impulsada por Anthropic, OpenAI, Meta y Perplexity, la web está viendo un nuevo tipo de visitante: los raspadores de bots. Este cambio afecta no solo a los editores de noticias, que dependen del tráfico de referencia para monetizar su periodismo, sino también a los creadores de contenido y a las grandes plataformas tecnológicas. En un caso, Reddit presentó recientemente una demanda contra Anthropic y afirma que sus bots están raspando su contenido, lo que Anthropic niega.

“Las empresas tecnológicas también se ven afectadas por los rastreadores de IA”, dijo Will Allen, jefe de productos de control, privacidad y medios de comunicación de Cloudflare en una entrevista con IBM Think. “Pinterest, Quora y Reddit son algunos de los sitios de tecnología de contenido generado por usuarios más populares que se han unido en apoyo de nuestro enfoque basado en permisos para los rastreadores de IA, junto con empresas en el espacio de IA como ProRata AI e Hyperscience”.

Los bots se utilizan para el entrenamiento, pero también para la generación aumentada de recuperación (RAG), que conecta los modelos de IA generativa con bases de conocimiento externas, como el contenido disponible públicamente en Internet. Según un informe publicado el mes pasado por la empresa tecnológica TollBit, el tráfico de bots de RAG observado en los sitios de sus socios creció un 49%, casi 2,5 veces la tasa de tráfico de bots de entrenamiento, que es del 18%. De los 12 principales bots que rastrean sitios web, TollBit descubrió que en el primer trimestre de 2025, ChatGPT, Meta y Perplexity fueron los más activos, representando un total de alrededor del 70% de los scraps promedio mensuales de los bots de IA.

Este nuevo tráfico afecta a los servidores y genera costos crecientes en la infraestructura de los editores. En abril, Wikimedia, la organización sin fines de lucro detrás de Wikipedia, señaló que el 65% de su tráfico más caro provenía de bots. “Nuestro contenido es gratuito, nuestra infraestructura no lo es”, dijo la organización en una publicación de blog.

Los bots hambrientos de datos también han afectado las tasas de clics en la página de resultados del motor de búsqueda, o SERP, que han disminuido drásticamente en los últimos meses. Tomemos como ejemplo AI Overview’s Overviewing, un estudio reciente de la empresa de marketing Ahrefs muestra que AI Overview, un producto lanzado por el gigante de las búsquedas a todos los usuarios el pasado mes de mayo, redujo los clics en un 34,5%. Si bien AI Overviews continúa creciendo, en un 116% desde marzo pasado, los sitios que se ofrecen en el SERP se ven afectados.

“Lo que eso significa es que si estás ganando dinero a través de suscripciones, a través de la publicidad, [a través] de cualquiera de las cosas que los creadores de contenido están haciendo hoy, los visitantes no van a ver esos anuncios”, dijo Prince de Cloudflare durante una entrevista reciente en CNBC. “Ya no van a comprar esas suscripciones. Y eso significa que va a ser mucho, mucho más difícil para ti ser un creador de contenido”.

Buen bot, mal bot

Pero no todos los bots son iguales: con el auge de los bots de rastreo de IA también se produce un aumento de los bots bien intencionados, y de los desconocidos.

Tecnologías Miso El cofundador y director ejecutivo Lucky Gunasekara dirige Project Sentinel, que monitorea más de 8.300 sitios de editores líderes en noticias y academia de todo el mundo, incluidos NewsweekThe GuardianUSA Today y BBC. Según las cifras recopiladas para el proyecto, hay más de 1.700 bots en el radar de 7.000 editores, compartió Gunasekara con IBM Think. Esta cifra creció un 35% desde febrero, mientras que la mayoría de los editores apuntan solo a 17 bots.

“Hablamos con muchos editores, y el signo de interrogación es cómo sabemos que esto está funcionando cuando se trata de pequeños y malos actores”, dijo en una entrevista. Entre los bots más grandes que monitoreó, encontró varios que no se pueden vincular a una gran empresa de inteligencia artificial. “¿Qué hacemos cuando un mal actor compró 100.000 direcciones IP que son solo un montón de bots?”, preguntó.

Allen también distingue a los “operadores bien intencionados de rastreadores, bots y agentes” que quieren una forma clara de identificar sus bots ante los propietarios de sitios de los malos actores. “Nuestras propuestas y apoyo para WebAuthn [autenticación web] continúan recibiendo mucho apoyo y colaboración en todo el ecosistema tecnológico”, dijo.

“Cuando los malos actores intentan rastrear sitios web a gran escala, generalmente utilizan herramientas y marcos de trabajo que podemos tomar como huellas dactilares. Utilizamos la red de Cloudflare de más de 57 millones de solicitudes por segundo en promedio para comprender cuánto debemos confiar en la huella digital”, agregó. “Calculamos agregados globales en muchas señales y, en función de estas señales, nuestros modelos pueden marcar de manera consistente y adecuada el tráfico de bots de IA evasivos”.

¿Una solución parcial?

Cloudflare no es la primera empresa que intenta “negociar” en nombre de los creadores de contenido. En el último año, empresas como ScalePost y TollBit han surgido y han propuesto soluciones para que los editores supervisen, vendan o moneticen datos para las empresas de IA.

Pero el envidiable mercado de Cloudflare podría hacer que su movimiento tenga más impacto.

“Si tuvieras que describir un grupo que está mejor posicionado, sería Cloudflare”, dijo Gunasekara.

“Es importante que estemos viendo uno de los grandes primeros pasos de los editores que se enfrentan a las empresas. Lo complicado es que no sabemos si las empresas de IA lo eludirán”, dijo Lily Ray, experta en SEO y vicepresidenta de Amsive, en una entrevista con IBM Think. Es posible que muchos creadores de contenido no comprendan necesariamente el impacto del bloqueo de forma predeterminada, después de todo, no todos quieren desaparecer de la búsqueda de IA. “Es un poco peligroso para los sitios que no entienden las implicaciones”, dijo.

Cloudflare dice que los editores tienen la opción de elegir permitir que los rastreadores accedan a su contenido para entrenamiento, búsqueda o inferencia. Los clientes existentes pueden bloquear los rastreadores de IA en cualquier momento con un solo clic en su panel de control de Cloudflare.

“Los clientes pueden permitir que Cloudflare cree y administre un archivo robots.txt, que crea las entradas adecuadas para que los rastreadores sepan que no deben acceder a su sitio para el entrenamiento de IA”, explicó Allen. “Los clientes pueden optar por bloquear los bots de IA solo en partes de sus sitios que se monetizan a través de anuncios”.

Diferente tecnología, mismos dilemas

La cuestión de la regulación de los intercambios entre las empresas de IA y los editores podría recibir mucha cobertura ahora que surgen nuevos laboratorios de IA y fluyen las inversiones. Pero no es nuevo, observa Eric Goldman, profesor de Derecho en la Facultad de Derecho de la Universidad de Santa Clara en Silicon Valley, quien estudió el modelo “infomediario” durante los años noventa, cuando se creó Internet.

“La tecnología puede ser diferente o puede haber evolucionado, pero de lo que estamos hablando hoy no es nuevo”, dijo a IBM Think.

“Este tema se ha discutido durante décadas, y nadie ha construido aún con éxito un modelo infomediario, aunque hubo miles de millones de dólares de dinero fácil en ese problema en la década de 1990. Por lo tanto, es posible que Cloudflare haya descifrado el modelo; Es posible que puedan hacer que funcione, pero el historial en este campo no es muy bueno”.

Goldman publicó “La IA generativa está condenada”, un documento sobre el tema, el año pasado. Según él, las respuestas regulatorias y legales prevalecientes a la IA generativa limitarán o incluso anularán sus beneficios.

El panorama legal aún tiene que ser moldeado por los resultados de varias demandas iniciadas por autores y editores contra las principales empresas de IA en los EE. UU. y en todo el mundo. “Hasta ahora, tenemos razones para creer que la regla predeterminada es que entrenar un modelo de IA generativa en obras protegidas por derechos de autor no es una infracción, pero estos problemas van a ser objeto de apelación, todos ellos”, dijo Goldman. “Hasta que comencemos a obtener fallos de apelación, son solo puntos de datos tempranos”.

Fuente: https://www.ibm.com/think/news/cloudflare-wants-save-internet

Deja una respuesta