En este punto, ya sabemos que los modelos de IA necesitan ingerir una gran cantidad de datos de numerosas fuentes para aprender. Las empresas extraen datos de fuentes de Internet, como libros electrónicos, sitios de redes sociales, sitios de vídeos, sitios web de noticias, blogs, etc. Gran parte de los datos son gratuitos para el público, pero las empresas de inteligencia artificial también obtienen una gran cantidad de datos de fuentes premium. Estamos hablando de contenido protegido por derechos de autor de pago. Puede que esto no signifique mucho para la persona promedio, pero ¿cuáles son las implicaciones de esta práctica? ¿Está justificada?
Estamos viendo un cambio en la industria hoy en día. Las grandes empresas de noticias y medios están firmando acuerdos que entregan su contenido a empresas de inteligencia artificial como AbiertoAI y Meta. Esto realmente sorprendió a las masas, ya que la IA tecnología ha tenido un efecto negativo en el periodismo. Por lo tanto, es un poco sorprendente que tantas empresas de noticias estén entregando felizmente su contenido a empresas de inteligencia artificial para dejar aún más obsoletos a los periodistas.
El lado legal
Entre otras cosas, esta práctica tiene como objetivo evitar problemas legales con las empresas. No mucho después de la explosión de la IA, descubrimos de dónde obtuvieron las empresas de IA los datos para entrenar sus modelos de IA. A varias empresas importantes no les gustó que las empresas de inteligencia artificial eliminaran su contenido, y una de las principales empresas fue The New York Times. Al momento de escribir este artículo, The New York Times está inmerso en una gran batalla legal con OpenAI. Esta empresa eliminó una tonelada de artículos protegidos por derechos de autor del New York Times. No sólo eso, sino que el New York Times alega que ChatGPT reproduce secciones de sus artículos palabra por palabra.
Otras demandas como esta han surgido durante el año pasado y esperamos más de diferentes empresas. Esto es especialmente cierto porque estamos viendo que surgen más historias que arrojan luz sobre la cantidad de contenido premium que las empresas de IA utilizaron para entrenar sus modelos. La gente está mirando hacia atrás en los conjuntos de datos que algunos de los modelos de IA más importantes utilizaron para entrenar y están viendo que gran parte del contenido proviene de sitios web de pago.
El análisis
Como se indicó, están apareciendo informes que revelan cuántos datos premium y de pago están recopilando las empresas de IA para entrenar sus modelos de IA. News Media Alliance publicó un informe el año pasado en el que nos informaba que algunos de los conjuntos de datos más grandes del mundo utilizaban una cantidad sustancial de contenido premium.
Descubrió que OpenWebText, los conjuntos de datos utilizados para entrenar el modelo GPT-2 de OpenAI, consistía en aproximadamente un 10% de contenido premium. Puede que no parezca mucho, pero ese conjunto de datos comprende alrededor de 23 millones de páginas web. Entonces, el 10% de un pastel de 23 millones de páginas es una porción considerable. No sólo eso, sino que no hay demasiados sitios de noticias premium en comparación con Internet en su conjunto, por lo que cualquier porcentaje superior al 0,001% es sustancial.
¿Qué quiere decir esto? Significa que empresas como OpenAI no se limitan a rastrear Internet y alimentar a sus modelos con lo que aparece. Las empresas de inteligencia artificial suelen utilizar datos de sitios premium para sus modelos.
¿Cómo sabemos esto?
El informe antes mencionado abrió la puerta a que llegaran más noticias. análisis reciente de Ziff Davis señaló algo similar; Los conjuntos de datos utilizados para entrenar modelos principales constan de una gran cantidad de contenido de pago. El informe de Ziff Davis, sin embargo, tiene en cuenta cuatro conjuntos de datos y revela algo sobre las intenciones de las empresas de IA.
Los cuatro conjuntos de datos que tiene en cuenta son Common Crawl, C4, OpenWebText y OpenWebText2. Varias empresas de IA utilizan estos cuatro conjuntos de datos, entre otros, para entrenar sus modelos.
Common Crawl se utilizó para entrenar GPT-3 de OpenAI y LLaMA de Meta. C4 se utilizó para entrenar los modelos LaMDA y T5 de Google junto con LLaMA. OpenWebText se utilizó para entrenar GPT-2 y OpenWebText2 para entrenar GPT-3. Es muy probable que otros modelos importantes utilizaran estos conjuntos de datos, pero los modelos mencionados anteriormente aparecieron en el informe.
Entonces, estos conjuntos de datos entrenaron algunos modelos bastante grandes. Obviamente, están bastante desactualizados. OpenAI tiene actualmente varias iteraciones en su serie GPT-4 y Meta está en LLaMA 3, por lo que los modelos enumerados anteriormente ya pasaron su mejor momento. Sin embargo, no deberíamos despreciar la gran cantidad de datos que existen en estos conjuntos de datos. OpenWebText2 contiene más de 17 millones de páginas web, mientras que OpenWebText 2 contiene 23 millones de páginas web. C4 los supera con 365 millones de páginas web, pero el campeón reinante es Common Crawl con 3,15 mil millones de páginas web.
Según los números, parece que GPT-3 y LLaMA deberían ser los modelos más inteligentes de la lista. Sin embargo, podría ocurrir lo contrario.
Preparación del conjunto de datos
Cuando estás en la escuela, tu maestro no se para frente a ti y te recita hechos arbitrarios durante seis horas seguidas. La información que le brindan debe ser seleccionada por el maestro, la escuela y la junta escolar. Es por eso que tiene planes de lecciones y un plan de estudios estándar. ¿Qué tiene esto que ver con AI modelos? Bueno, los modelos de IA se parecen más a los seres humanos de lo que crees.
Si usted es un modelo de IA y recibe un conjunto de datos, preferirá recibir información relevante y de alta calidad. Como tal, las empresas no siempre llenan sus modelos con una gran cantidad de datos aleatorios. En ocasiones, los conjuntos de datos se limpian y curan. La limpieza de conjuntos de datos es un proceso que elimina datos duplicados, errores, información inconsistente, datos incompletos y más. En cierto modo, elimina la grasa. La curación del conjunto de datos organiza el conjunto de datos para que la información sea más accesible. Estas son simplificaciones excesivas, pero puedes leer más con los hipervínculos.
En cualquier caso, limpiar y curar los conjuntos de datos básicamente procesa los datos y los modifica para que sea más fácil de ingerir para el modelo. Esto es similar a cómo se organiza el plan de estudios de su escuela para aumentar gradualmente en dificultad a medida que avanza el año.
Ahora, hablemos de la autoridad de dominio.
Es hora de hacer una pequeña pero necesaria tangente. Hay otro ángulo en este informe, y uno es la autoridad de dominio. En cierto modo, cuanto mayor sea la autoridad de dominio que tenga un sitio, más confiable y de buena reputación será. Por lo tanto, es de esperar que un sitio como The New York Times, una importante corporación de noticias, tenga una mayor autoridad de dominio que un sitio de noticias nuevo que obtiene un máximo de 10 visitas cada día.
El informe tuvo en cuenta 15 de las empresas de noticias con mayor autoridad de dominio. Esta lista consta de “Advance (Condé Nast, Advance Local), Alden Global Capital (Tribune Publishing, MediaNews Group), Axel Springer, Bustle Digital Group, Buzzfeed, Inc., Future plc, Gannett, Hearst, IAC (Dotdash Meredith y otras divisiones), News Corp , The New York Times Company, Penske Media Corporation, Vox Media, The Washington Post y Ziff Davis.”
El informe sitúa la autoridad de dominio en un sistema de 1 a 100 puntos. 100 significa que el sitio tiene la mayor autoridad de dominio. La lista anterior consta de sitios con autoridades de dominio bastante altas.
los numeros
¿Qué tiene eso que ver con los conjuntos de datos y los modelos de IA? Bueno, juntemos todo esto. En el informe, vemos un desglose de los cuatro conjuntos de datos. En el gráfico siguiente, vemos una tendencia interesante.
El eje X del gráfico muestra las puntuaciones de autoridad de dominio divididas en intervalos de 10 puntos y el eje Y muestra el porcentaje de la cantidad de datos en cada conjunto. Muestra que poco más del 50% de los sitios web en Common Crawl tienen puntuaciones de autoridad de dominio de entre 0 y 9. Cae drásticamente a medida que aumenta la autoridad de dominio. Menos del 10% del conjunto de datos tiene una puntuación superior a 10 puntos, y eso continúa durante el resto del gráfico.
Pasando al C4, los resultados no son mucho mejores. Alrededor del 20% de los sitios tienen una puntuación de dominio de entre 10 y 20 puntos. Luego también disminuye considerablemente. C4 se mantiene consistentemente más alto que el rastreo común durante la mayor parte del gráfico.
Sin embargo, vemos un cambio dramático una vez que miramos los dos conjuntos de datos de OpenWebText. De hecho, ¡vemos exactamente lo contrario! Ambos modelos parten de un lugar similar en el gráfico con puntuaciones de 0 a 9, pero aumentan constantemente a medida que aumentan las puntuaciones de autoridad del dominio. Más del 30% de los datos de OpenWebTexts provienen de sitios con puntuaciones de autoridad de dominio entre 90 y 100. En cuanto a OpenWebText 2, alrededor del 40% de este conjunto de datos consta de sitios con puntuaciones de autoridad de dominio entre 90 y 100.
Solo los sitios premium
Aquí hay un gráfico que muestra datos similares. Sin embargo, en lugar de datos de todos los sitios extraídos, esto solo muestra datos de los sitios web premium antes mencionados.
A continuación, tenemos un gráfico que muestra cada una de las publicaciones antes mencionadas y cuánto se utilizaron en cada conjunto de datos. Vemos que el porcentaje se dispara para ambos modelos de OpenWebText, pero estos dos modelos tienen sustancialmente menos datos, por lo que es más fácil para una fuente obtener un porcentaje más alto.
Aquí está la sorpresa
Entonces, vemos que existen más datos de sitios web de alta calidad en los conjuntos de datos de OpenWebText, pero aquí está el truco. ¿Recuerda que hablamos sobre limpiar y curar conjuntos de datos? Este proceso toma los datos sin procesar y sin filtrar y los procesa. Bueno, en el informe, Common Crawl y C4 no se han limpiado ni curado. Los dos conjuntos de datos de OpenWebText fueron. Esto significa que los conjuntos de datos con mayor volumen de contenido premium resultan ser los que han sido tocados por manos humanas.
Esto sugiere que las empresas de inteligencia artificial apuntan específicamente a datos premium para extraer. Hasta este punto, asumimos que estas empresas decidieron simplemente rastrear sitios web y descargar la mayor cantidad de datos posible en sus modelos, sin prestar atención a su procedencia. Sin embargo, la realidad es que muchas de estas empresas pueden estar buscando específicamente contenido que no deberían utilizar.
Este informe muestra que gran parte del contenido utilizado para entrenar los modelos de OpenAI implica contenido de pago. Entonces, la pregunta es: ¿cuántos otros conjuntos de datos se procesan para favorecer los datos premium?
¿Se puede justificar que las empresas de IA tomen datos premium?
A primera vista, las empresas parecen estar equivocadas, pero cuando se profundiza un poco más, la línea entre el bien y el mal comienza a desdibujarse. Conocemos las implicaciones legales. Las empresas de inteligencia artificial sobrepasan sus límites cuando entrenan sus modelos con material de pago. Además de reproducir textualmente fragmentos de contenido de pago en algunos casos, estas empresas están robando datos para entrenar modelos que las sacarán del negocio. Eso es bastante complicado.
Sin embargo, hay dos lados en esta conversación. El hecho es que los modelos de IA ya existen y nadie puede hacer nada al respecto. Están brindando respuestas a nuestras preguntas, enseñándonos, etc. No solo eso, sino que estas herramientas de inteligencia artificial están preparadas para usarse en algunos campos bastante cruciales y con poco personal, como la medicina y la educación. Si van a recibir capacitación sobre contenido de Internet, lo mejor sería que lo hicieran sobre contenido de alta calidad.
Si bien es difícil admitir que esta práctica podría tener algún mérito, cada vez más partes de nuestras vidas se verán afectadas por la IA de alguna manera. Honestamente, sería mejor utilizar modelos entrenados con datos de alta calidad que modelos entrenados con cualquier cosa. A gran parte de la población no le gusta el avance de la IA, pero nadie puede detener el progreso. La IA tomará el control, por lo que tener modelos entrenados en contenido de mayor calidad puede ser el menor de dos males.
¿Pero es eso suficiente?
¿Esto justifica el uso de contenido de pago? Una de las peores cosas en cualquier industria es cuando una gran empresa puede simplemente actuar como le place. ¿Confiarías en tu hijo de 8 años solo en una tienda de dulces sin vigilancia? Obviamente, sin personal cerca que les impida comer, su hijo volverá a casa con dolor de barriga.
Justificar que las empresas adopten subrepticiamente el muro de pago básicamente les da rienda suelta para atiborrarse de tantos datos como puedan, al igual que el niño. Básicamente, les otorga un pase para tomar datos libremente de otros servicios pagos. Desafortunadamente, las empresas que existen en Internet tienen que vivir según las reglas de Internet; La regla número 1 es que todos los sitios se rastrean y es muy poco lo que alguien puede hacer al respecto.
Los informes de Ziff Davis y News Media Alliance muestran que varias empresas de inteligencia artificial desviaron datos de publicaciones premium a sabiendas y no lo reconocieron. Las empresas están presentando demandas, como deberían hacerlo, porque no se sabe cuántos de sus datos se encuentran dentro de los mismos chatbots que están robando los empleos de los periodistas.
Fuente: Android Headlines