Los datos de los editores premium fueron eliminados más de lo que pensábamos

Un tema importante en la IA es cómo AI Las empresas recopilan datos para entrenar sus modelos. Empresas como The New York Times están demandando Abierto AI y microsoft por raspar su contenido para entrenar ChatGPT. Si bien estas empresas extraen la mayoría de sus datos de fuentes disponibles públicamente, parece que recopilar datos de más editores premium de lo que pensaríamos.

Las empresas de inteligencia artificial que utilizan contenido de pago para entrenar sus modelos todavía se encuentran en una zona legal gris. Se debate si esto es técnicamente una infracción de derechos de autor. Si el chatbot en cuestión reproduce secciones enteras del contenido pago, eso podría ser motivo de demanda. Ésta es una de las razones de la demanda del New York Times. También es la razón por la que las empresas de inteligencia artificial buscan cerrar acuerdos con tantos editores. Esto es para evitar problemas legales, entre otras razones. El único problema es que estas empresas de inteligencia artificial probablemente estaban recopilando datos de pago mucho antes de que las publicaciones se enteraran.

Las empresas de inteligencia artificial obtienen más datos de los editores premium de lo que muchos piensan

un nuevo informe de ziff davis (a través de axios) acaba de arrojar algo de luz sobre cuánto contenido premium han eliminado las empresas de IA. Para el informe, los coautores George Wukoson y Joey Fortuna analizaron varios LLM y el contenido utilizado para capacitarlos. Lo que descubrieron fue que una gran cantidad de datos utilizados para entrenar algunos de los modelos más grandes procedían de 15 publicaciones premium.

Un ejemplo importante fue GPT-2, que fue entrenado por OpenAI. Los investigadores tomaron una réplica de código abierto del conjunto de datos OpenWebText, que OpenAI utilizó para entrenar el modelo. Descubrieron que alrededor del 10% de la información de ese conjunto de datos procedía de sitios web premium. Otros conjuntos de datos utilizados para entrenar modelos más antiguos también utilizaron una gran cantidad de datos de sitios premium.

Esto significa que algunos de los LLM más antiguos (probablemente modelos que nunca impulsaron chatbots orientados al usuario) consistían en una cantidad significativa de información de sitios premium. Si bien ese es el caso, el informe encontró que algunos de esos conjuntos de datos más antiguos todavía se utilizan para entrenar modelos más nuevos. Esto significa que los modelos podrían seguir utilizando material de pago.

Entonces, si bien varias publicaciones han cerrado acuerdos con empresas de inteligencia artificial, los modelos de inteligencia artificial que impulsan muchos de los chatbots más poderosos del mercado todavía utilizan información extraída de contenido de pago.

Fuente: Android Headlines

Las empresas de inteligencia artificial obtienen más datos de los editores premium de lo que muchos piensan

Deja un comentario Cancelar respuesta