Durante décadas, los sitios web se basaron en el simple archivo robots.txt para comunicarse con los rastreadores web. Este archivo actúa como un guardián, sugiriendo qué contenido es un juego limpio y cuál está prohibido. Sin embargo, esto es en gran medida una cortesía, no una regla que se pueda hacer cumplir. Los expertos señalan que robots.txt no proporciona ningún mecanismo de aplicación real y funciona simplemente como una solicitud cortés. Jugadores importantes como Google respetar esta norma debido al escrutinio público. Sin embargo, los raspadores más pequeños y especialmente diseñados a menudo lo ignoran por completo. A los desarrolladores que crean raspadores simples les resulta más fácil y menos complicado omitir el archivo que realizar comprobaciones de código para respetarlo.
Esta falta de cumplimiento ha alimentado un nuevo problema: los raspadores de terceros. Cuando los editores intentan bloquear explícitamente Empresas de IAsimplemente crean un mercado para servicios de terceros que se jactan de robar contenido, a menudo eludiendo los muros de pago. Esto permite que los grandes modelos de IA respondan consultas de noticias «en vivo» utilizando información extraída efectivamente de publicaciones que nunca dieron su consentimiento. Esta práctica está creciendo, lo que lleva a mayores conversaciones entre los principales editores de periódicos sobre la creciente amenaza.
La nueva guerra de derechos de autor: los editores luchan contra los web scrapers de IA con lonas y códigos
El peaje que scraping de IA constante y no autorizado asumen los editores es significativo y mensurable. Para muchos, el resultado es una disminución masiva del tráfico web directo. Después de todo, los modelos de IA sintetizan el contenido y reducen la necesidad de que los usuarios hagan clic para acceder a la fuente. Además, los editores se enfrentan a costes operativos cada vez más elevados.
Wikipedia, por ejemplo, informó de un aumento del 50% en el consumo de ancho de banda en un corto período. la Fundación Wikimedia atribuyó esto directamente a programas automatizados que eliminan su vasto catálogo de imágenes con licencia abierta. Esta tensión obliga técnico equipos en una batalla constante para gestionar la enorme afluencia de tráfico de raspadores.
En respuesta, la industria está viendo esfuerzos coordinados para establecer nuevas reglas. El Grupo de Trabajo de Ingeniería de Internet (IETF) ha formado el Grupo de Trabajo de Preferencia de IA (AIPREF). Este grupo tiene como objetivo crear un vocabulario común para que los editores expresen claramente sus preferencias con respecto al uso de su contenido para la capacitación en IA. El objetivo final es transformar el suave «por favor, no» de robots.txt en una línea técnica y dura de «esto está prohibido».
Nuevas armas en el arsenal de contra-scraping
Dado que sigue sin haber una regulación clara, algunos editores están implementando contramedidas activas:
Tarpitas de IA: Esta táctica de ciberseguridad atrapa a los rastreadores de IA enviándolos a un “laberinto infinito” de archivos estáticos sin enlaces de salida. Los rastreadores se atascan y desperdician sus propios recursos tratando de navegar en el bucle sin fin. Algunos desarrolladores incluso están utilizando tarpits exitosos para “envenenar” a los raspadores de IA atrapados alimentándolos con tonterías o “datos galimatías” diseñados para corromper los modelos de IA.
Prueba de trabajo: Otras defensas, como el desafío de Anubis, actúan como un CAPTCHA inverso. En lugar de comprobar si un visitante es humano, obligan a la máquina del visitante a completar un desafío criptográfico de prueba de trabajo. Para las empresas de inteligencia artificial que ejecutan granjas de bots masivas, estos cálculos requieren una potencia de procesamiento significativa, lo que hace que el costo de escanear un sitio sea prohibitivamente elevado.
Cloudflare se une a la lucha
En un movimiento masivo de la industria, Cloudflare, un importante proveedor de infraestructura de Internet, recientemente revirtió su política y ahora bloquea automáticamente los robots de IA de forma predeterminada. Anteriormente, la empresa ofrecía un modelo opcional de “exclusión voluntaria”. Esta decisión recibió el apoyo de más de una docena de importantes editores de medios. La lista incluye The Associated Press, The Atlantic y Condé Nast. Cloudflare también ofrece una herramienta más agresiva llamada AI Labyrinth, que detecta el mal comportamiento de los robots y atrae a rastreadores no deseados a una trampa de páginas señuelo generadas por IA para desperdiciar sus recursos.
Fuente: Android Headlines