Meta demandada por supuestamente entrenar IA con contenido de libros pirateados

Meta es una de las empresas que ha decidido apostar fuerte por inteligencia artificial mantenerse entre las principales empresas del industria tecnológica. La firma cuenta con su propia serie de modelos de IA, Llama. Al igual que otras empresas, Meta capacitó a Llama utilizando conjuntos de datos con grandes cantidades de información disponibles en Internet. Sin embargo, un grupo de autores demanda a Meta por supuestamente utilizar libros pirateados para entrenar sus modelos de IA.

Autores como Ta-Nehisi Coates y la comediante Sarah Silverman (entre otros) son parte del grupo que dice que Meta utilizó un conjunto de datos con contenido de libros robados. No sólo eso, el CEO de la compañía, Mark Zuckerberg, habría sido consciente de que el conjunto de datos contenía libros pirateados antes de dar su aprobación para su uso en el entrenamiento Llama.

Meta utilizó deliberadamente libros pirateados para entrenar IA, afirma una demanda

Se hicieron públicos documentos relacionados con la demanda a mediados de esta semana. El caso, presentado en un tribunal federal de California, surge de otro presentado en 2023 y desestimado el año pasado por el juez de distrito estadounidense Vince Chhabria. En ese momento, los autores afirmaron que Meta IA pudo generar texto que infringía sus derechos de autor. La demanda original también alegaba que Meta AI eliminó la información de gestión de derechos de autor (CMI) del contenido de sus libros.

El grupo demandante quiere que se reabra el caso

Sin embargo, el grupo demandante afirma que nuevos hallazgos justifican la reapertura del caso. Dicen que tuvieron acceso a comunicaciones internas de Meta donde Zuckerberg”aprobó el uso por parte de Meta del conjunto de datos LibGen a pesar de las preocupaciones dentro del equipo ejecutivo de IA de Meta (y otros en Meta) de que LibGen es «un conjunto de datos que sabemos que está pirateado»..’” LibGen es un conjunto de datos para el entrenamiento de IA que estuvo disponible en Internet durante un tiempo. Contenía alrededor de 32 TB de contenido centrado en libros de todo tipo, incluido contenido científico.

Los demandantes dijeron al juez Chhabria que los nuevos hallazgos no sólo refuerzan sus afirmaciones anteriores. Incluso piensan que también pueden incluir una nueva denuncia por fraude informático. El juez permitirá a los demandantes presentar sus nuevas pruebas en una demanda enmendada. Sin embargo, también expresó escepticismo en cuanto a que la demanda pudiera tener éxito para los autores.

Fuente: Android Headlines

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *