Tus publicaciones de Bluesky podrían estar entrenando modelos de IA ahora mismo

La popularidad de Bluesky se ha disparado en las últimas semanas. En medio de un “éxodo” de usuarios de X/Twitter, millones encontraron en Bluesky la alternativa ideal. Al estar diseñada como competidor de Twitter, la plataforma es bastante similar en términos de funcionalidad principal. Sin embargo, parece que las condiciones de BlueSky con respecto a la IA y la privacidad de las publicaciones no son tan buenas como muchos esperaban.

Uno de los cambios en X que desencadenó una campaña de migración de usuarios está relacionado con la inteligencia artificial. Las nuevas condiciones de uso permiten a la plataforma de Elon Musk entrenar sus desarrollos basados en IA con publicaciones de usuarios. Si bien a muchos puede no importarles esto, hay otros, como los artistas, que vieron la nueva política con preocupación.

Dicho esto, parece que sus publicaciones en Bluesky no son tan seguras para usarlas en el entrenamiento de IA. Es digno de mención que la plataforma social se ha comprometido a no hacerlo. Esta afirmación tranquilizó a las personas que abandonaron X por ese mismo motivo. pero mientras Bluesky no entrenará la IA en su contenidonada impide que terceros lo hagan.

El origen de la polémica: millones de publicaciones de Bluesky disponibles para el entrenamiento de IA

La semana pasada, Daniel van Strien, bibliotecario de aprendizaje automático en Hugging Face, compartió un conjunto de datos que consta de un millón de publicaciones de Bluesky, lo que generó una controversia. Si no lo sabes, Hugging Face es una plataforma de biblioteca de aprendizaje automático de código abierto. Eso significa que los conjuntos de datos están disponibles para uso gratuito, incluido el entrenamiento de IA.

Por supuesto, el noticias no fue bien recibido por los usuarios que se mudaron a Bluesky específicamente para escapar de las políticas permisivas con respecto al entrenamiento de IA. Horas después de la reacción violenta, Daniel van Strien eliminó el conjunto de datos y se disculpó públicamente. “Si bien quería apoyar el desarrollo de herramientas para la plataforma, reconozco que este enfoque violó los principios de transparencia y consentimiento en la recopilación de datos. Pido disculpas por este error”, dijo.

Una de las características que distingue a Bluesky de otras plataformas es su naturaleza descentralizada. Esto tiene ventajas, como un mayor control por parte de los individuos sobre su contenido. Sin embargo, también significa que las publicaciones están disponibles en un feed público. Así, terceros tienen acceso completo a ellos, incluidos los perfiles de los usuarios que los publicaron.

Cuando los terceros son profesionales, como investigadores, suelen seguir pautas éticas para el manejo de conjuntos de datos. Por ejemplo, anonimizan cada publicación para que no pueda vincularse a nadie. También ofrecen opciones para que los usuarios soliciten la eliminación de su contenido del conjunto de datos. Sin embargo, como muchos sabrán, Internet está lleno de trolls.

Surgieron más conjuntos de datos con millones de publicaciones de BlueSky

Al ver la reacción de los usuarios de Bluesky a la publicación original de Daniel van Strien, rápidamente comenzaron a surgir nuevos conjuntos de datos que contienen millones de publicaciones de la plataforma social. Las descripciones de los conjuntos de datos de Hugging Face a menudo indican explícitamente que se pueden utilizar para el entrenamiento de IA. Después de todo, eso sólo irritará aún más a aquellos que estaban molestos por el primer conjunto de datos compartido, ¿verdad?

La recopilación de datos de terceros no siguió ninguna pauta profesional. Esto significa que los conjuntos de datos disponibles públicamente incluyen no sólo las publicaciones sino también los apodos de las personas que las crearon. La situación escaló hasta el punto de que el conjunto de datos más grande detectado hasta ahora incluye casi 300 millones de publicaciones de los usuarios del rival de X.

Alpine Dale, afiliado de PygmalionAI, reveló que compiló un conjunto de datos con dos millones de publicaciones. PygmalionAI es un LLM que es especialmente popular entre los usuarios de chatbots centrados en juegos de roles. Este conjunto de datos aún no se ha compartido, pero la descripción en el sitio web dice que «podría usarse para: Capacitar y probar modelos lingüísticos en contenido de redes sociales; Analizar patrones de publicación en redes sociales; Estudiar estructuras de conversación y redes de respuesta; Investigación sobre moderación de contenidos en redes sociales; Tareas de procesamiento del lenguaje natural utilizando datos de redes sociales.«

También está Alim Maasoglu, un individuo “dedicado al desarrollo de productos inmersivos dentro del espacio de la inteligencia artificial.” La descripción de su conjunto de datos en Hugging Face, compuesto por unos ocho millones de publicaciones de Bluesky, dice que «tiene como objetivo proporcionar a investigadores y desarrolladores una muestra completa de datos de redes sociales del mundo real para su análisis y experimentación..” La descripción también menciona que el conjunto de datos es «creciente”, por lo que crecerá con el tiempo.

El más grande tiene casi 300 millones de publicaciones.

Dicho esto, nada de lo anterior se acerca al usuario de Hugging Face que se hace llamar GAYSEX, con obvias intenciones de trollear. Su conjunto de datos incluye nada más y nada menos que 298 millones de publicaciones de usuarios de Bluesky.

La descripción del conjunto de datos GAYSEX muestra sus intenciones de forma irónica. “¡NOOO, no puedes hacer esto!’ Entonces no publiques. Si no quieres que te graben, no lo publiques. ‘¡¡Pero estaba haciendo XYZ !!’ Entonces no lo hagas. Mirar. Casi todo lo que hay en Internet permanece en Internet hoy en día. Especialmente grandes sitios de redes sociales. Es posible que desee considerar iniciar un blog. Estos tienen menos posibilidades de ser seleccionados para recibir entrenamiento de IA + hay formas adicionales de proteger los blogs que se eliminan agresivamente”, se lee.

Irónicamente, aunque este conjunto de datos tiene la mayor cantidad de publicaciones de Bluesky, también es el menos útil para entrenar modelos de IA. El usuario extrajo los datos sin mucho cuidado, orden o estructura organizativa. Básicamente, su objetivo era simplemente recopilar tantas publicaciones como fuera posible. Solo querían superar con creces los conjuntos de datos anteriores que se habían compartido y causar más molestia entre la gente de Bluesky. Este conjunto de datos es “demasiado sin filtrar, por lo que habrá mucho trabajo por hacer”para que sea adecuado para el entrenamiento de IA.

Las leyes actuales de protección de datos no pueden hacer nada al respecto

Según el informe de Samantha Cole sobre 404 Mediosal menos seis conjuntos de datos que contienen millones de publicaciones de usuarios de Bluesky están disponibles públicamente en Hugging Face. Además, parece que las leyes actuales de protección de datos no pueden detener esto. Cole consultó la situación con Neil Brown, abogado especializado en el Reglamento General de Protección de Datos (GDPR). “El mero procesamiento de datos personales de personas en la UE no hace que la persona que realiza ese procesamiento esté sujeta al RGPD de la UE.”, afirmó Brown.

Lo que determina si acciones similares están sujetas al RGPD es lo que una organización o individuo en particular hace con los datos. La simple publicación del conjunto de datos no lo hace elegible para iniciar un proceso legal basado en GDPR. El tratamiento de los datos”tendría que estar dentro de su [GDPR] ámbitos materiales y territoriales”Por eso, añade Cole. Por «ámbitos materiales y territoriales“Se refiere no sólo a lo que alguien hace con el conjunto de datos sino también a la región en la que lo hace.

Fuente: Android Headlines

El origen de la polémica: millones de publicaciones de Bluesky disponibles para el entrenamiento de IA

Surgieron más conjuntos de datos con millones de publicaciones de BlueSky

El más grande tiene casi 300 millones de publicaciones.

Las leyes actuales de protección de datos no pueden hacer nada al respecto

Deja un comentario Cancelar respuesta