Según los informes, Meta torrentó 82TB de libros con derechos de autor para el entrenamiento de IA

Empresa matriz de Facebook Meta está en medio de un posible desastre legal después de una demanda presentada por un grupo de autores. La demanda acusa a Meta del uso de material con derechos de autor sin permiso para el desarrollo de productos de IA. En una nueva actualización, se dice que Meta ha torrenciado hasta 82 TB de contenido para Entrenamiento de IA.

La «nueva» demanda contra meta Surgió a mediados de enero de 2025. En realidad, es un seguimiento de una demanda presentada originalmente en 2023 que ya había sido desestimada. Los demandantes afirmaron que el contenido de los libros usaba meta ilegalmente para capacitar a su Modelos de IA de llamas. En ese momento, se estimó que la cantidad de contenido con derechos de autor utilizados por la empresa era tan alto como 32TB. Según los informes, los datos se obtuvieron de LibGen, un conjunto de datos que estuvo disponible en Internet durante un tiempo e incluyó contenido de libros de todo tipo, desde comedia hasta ciencia.

Según los informes, el tamaño de los conjuntos de datos torrentes por meta para el entrenamiento de IA alcanza 82TB

Dicho esto, el Últimas actualizaciones sobre el caso revelar que Meta puede haber usado una cantidad mucho mayor de datos. Además de LibGen, Según los informes, Meta utilizó los conjuntos de datos de archivos y bibliotecas Z de Anna. En total, el documento menciona que Meta realmente torrenció alrededor de 82 TB de archivos para capacitación de IA.

La evidencia presentada en el caso muestra las presuntas preocupaciones expresadas por los empleados involucrados en el proyecto de Meta. «No creo que debamos usar material pirateado. Realmente necesito dibujar una línea aquí«, Según los informes, un investigador principal de IA dijo en 2022».El uso de material pirateado debe estar más allá de nuestro umbral ético«, Según los informes, dijo otro investigador. «Scihub, Researchgate, Libgen son básicamente como Piratebay o algo así, están distribuyendo contenido que está protegido por los derechos de autor y lo están infringiendo«, Agregaron.

La queja original también afirma que Mark Zuckerberg era consciente del origen de los conjuntos de datos. Sin embargo, en una reunión en 2023, el CEO de Meta, según los informes, aprobó su uso. «Necesitamos mover estas cosas hacia adelante … necesitamos encontrar una manera de desbloquear todo esto«, Dijo Zuckerberg. «Torrenting de una computadora portátil corporativa no se siente bien [laughing out loud emoji],Según los informes, un meta empleado le contó a otro en una conversación.

Meta podría haber tratado de evitar dejar rastros de descargas

Los documentos incluso afirman que Meta tomó medidas para ocultar sus pasos. Según los informes, la compañía intentó evitar dejar trazas que permitirían el seguimiento de la actividad de descarga del conjunto de datos a sus servidores. Esto implica que Meta puede haber tratado deliberadamente de evitar las leyes de derechos de autor.

No parece que el caso tendrá una solución pronto. Se esperan las primeras decisiones sobre el asunto en cuestión de meses. Además, si la salida es negativa para Meta, seguramente apelará, lo que prolongará aún más el proceso. Es posible que, al final, no tengamos un veredicto final para este caso hasta años a partir de ahora. Esta demanda, y otras, es un ejemplo de cómo los derechos de autor para la capacitación de IA permanecen en un «área gris» años después.

Fuente: Android Headlines

Según los informes, el tamaño de los conjuntos de datos torrentes por meta para el entrenamiento de IA alcanza 82TB

Meta podría haber tratado de evitar dejar rastros de descargas

Deja un comentario Cancelar respuesta