Meta ha surgido del Metaverso para convertirse en un actor importante en el AI corte. Como tal, la empresa tiene su propio equipo de rastreadores web que rastrean páginas que no tienen el protocolo Robots.txt. O al menos eso pensábamos. Según algunos informes nuevos, parece que los nuevos rastreadores de Meta no temen a ningún robot, ya que Han estado saltándose ese protocolo..
Las grandes corporaciones han estado utilizando rastreadores web para explorar y extraer datos de sitios web en Internet durante años. Sin embargo, el pueblo ha dejado clara su postura; no quieren que las empresas extraigan sus datos sin su consentimiento. Por supuesto, todas las empresas obedecen nuestros deseos y evitan extraer datos de sitios web sin el archivo Robots.txt… ¿verdad?
Estamos hablando de grandes corporaciones. Obviamente, han encontrado formas de escupir en la cara de las personas que confían en ellos. Ha habido informes de empresas como Perplexity, Abierto AIy Anthropic AI encuentran formas de eliminar sitios que tienen el archivo Robots.txt.
¿Qué es Robots.txt?
En caso de que no sepa qué es este archivo, Robots.txt es un fragmento de código que evita que los rastreadores web extraigan datos de un sitio. Ha estado en funcionamiento desde finales de los años 90, por lo que tiene sus raíces en el auge de la era de los motores de búsqueda. El consenso fue que, si tuviera el archivo en su sitio, estaría a salvo de rastreadores web de todo tipo. Estamos seguros de que, a lo largo de casi 30 años, alguna empresa ha ideado alguna forma de solucionarlo. Tal vez no hubiera sido noticia de primera plana hace unos años, pero las cosas han cambiado desde el boom de la IA.
Ahora que sabemos cómo las empresas obtienen datos para alimentar sus modelos de IA, cualquier empresa que pase por alto Robots.txt se mira con frialdad. Y deberían serlo. Hay personas que sólo quieren evitar que se eliminen sus datos. Saber que las empresas ignoran descaradamente sus deseos es una enorme bofetada.
Los nuevos rastreadores web de Meta podrían ignorar el archivo Robots.txt
Si crees que Meta es un ángel perfecto cuando se trata de adquisición de datos, estás equivocado. Entre las otras empresas que eluden el archivo, un nuevo informe apunta a un dúo de rastreadores que también podrían evitar que Robot entrene a su chatbot.
Como lo descubrió Originalidad.AIMeta lanzó dos nuevos rastreadores en algún momento de julio. Uno se llama Meta-ExternalFetchery el otro se llama Meta-ExternalAgent. La razón por la que Meta trajo dos rastreadores es porque realizan dos funciones diferentes.
Meta declaró que Meta-ExternalAgent es «para casos de uso como entrenar modelos de IA o mejorar productos indexando contenido directamente». Entonces, es algo bastante estándar por lo que parece. Viajará a diferentes sitios web y extraerá los datos de ellos para ayudar a entrenar los modelos Llama de la empresa.
El segundo no parece extraer información de los sitios directamente. Parece que esto está dedicado a buscar enlaces web. No estamos seguros de para qué se utilizarán los enlaces web, pero parece que el bot es principalmente para Meta AI Assistant. Éste no suena tan tortuoso como el primero.
Pasando sigilosamente al robot
Si bien el primero no suena tan diferente, es notable por varias razones. En primer lugar, Meta afirma que Meta-ExternalAgent «puede eludir las reglas de robots.txt». Entonces, según la declaración de la compañía, no podemos afirmar rotundamente que la compañía lo esté evitando, pero es justo suponerlo. Estamos hablando de Meta. Esta empresa tiene una buena cantidad de problemas con la ley que trata sobre cómo recopila datos de los usuarios.
En segundo lugar, una cosa que Business Insider señaló es que este rastreador en realidad tiene dos propósitos. Rastrea los sitios y los indexa. Esto es bastante extraño, ya que la mayoría de los rastreadores realizan una tarea. Por extraño que parezca, esto podría ser una táctica para asustar a los sitios y hacer que dejen entrar al rastreador de Meta.
Si desea que un motor de búsqueda muestre su sitio web cuando alguien realiza una búsqueda relevante, entonces querrá que ese motor indexe su sitio. Por lo tanto, si desea que su sitio aparezca cuando alguien realice una búsqueda en una plataforma Meta, lo necesitará para indexar su sitio.
Aparentemente, lanzar un rastreador que extraiga e indexe su sitio significa que, si desea que la empresa indexe su sitio, también debe permitirle extraer datos. Al menos eso es lo que parece. Si eso es cierto, entonces es un nuevo mínimo para Meta.
Lo que Meta tiene que decir
A Meta El portavoz se acercó y habló sobre los reclamos presentados contra la empresa. Dijeron que la empresa emplea varios rastreadores en orden «para facilitar a los editores la indicación de sus preferencias.”
El portavoz también se puso en contacto con Business Insider por correo electrónico para afirmar: «Al igual que otras empresas, entrenamos nuestros modelos de IA generativa en contenido que está disponible públicamente en línea.”, continuaron “Reconocemos que algunos editores y propietarios de dominios web quieren opciones en lo que respecta a sus sitios web y a la IA generativa..”
Por último, el portavoz dijo que la empresa lanzó varios rastreadores para evitar «agrupar todos los casos de uso en un solo agente, lo que brinda más flexibilidad a los editores web.«
Esto simplemente nos hace preguntarnos por qué el rastreador Meta-ExternalAgent indexa y raspa. En cualquier caso, si estás preocupado por estos nuevos rastreadores, Meta proporcionó alguna información sobre cómo evitarlos.
Necesitamos una nueva forma de evitar que las empresas extraigan datos
Esto saca a la luz un problema bastante importante en toda la industria tecnológica. Muchos propietarios de sitios recién oían hablar de Robots.txt el año pasado cuando estábamos aprendiendo cómo las empresas adquirían datos. Entonces, habilitaron el archivo y durmieron bien esa noche sabiendo que su sitio estaba a salvo de ser eliminado. Sin embargo, empezamos a recibir historias sobre cómo las empresas lo han estado evitando. ¿Nada es sagrado?
El quid de la cuestión es que necesitamos algo nuevo para mantener a los rastreadores alejados de los datos de nuestros sitios. Robots.txt ha sido útil, pero tiene más de 20 años. No deberíamos confiar en un método que existe desde antes del iPod original. Las empresas ya han encontrado una manera de evitarlo. Está en el punto en el que ya no sirve de nada. Si grandes empresas como OpenAI ya lo han evitado, entonces no sirve para mucho más que un placebo.
Es necesario implementar algo mejor que bloquee a los rastreadores. No sólo eso, sino que necesitamos la ayuda del gobierno para obligar a las empresas a no eludirlo. En este punto, dado que las empresas pueden eludir casualmente el archivo .TXT, las grandes corporaciones se encuentran básicamente en el sistema de honor. Ése es un pensamiento que te mantendrá despierto por la noche.
Con suerte, veremos llegar un nuevo sistema más temprano que tarde. Eso si no es ya demasiado tarde.
Fuente: Android authority