La cantidad de datos de video que Nvidia extrajo te dejará boquiabierto

Los generadores de vídeo con IA están ahora en aumento, al igual que los chatbots lo hicieron el año pasado. Las empresas necesitan obtener e incorporar una gran cantidad de datos de vídeo para entrenar sus modelos de IA, y ahí es donde entran algunos problemas (cuestiones legales). Según un nuevo informe, Nvidia extrajo una gran cantidad de datos de vídeo para entrenar IA.

Primero, estábamos aprendiendo cómo las empresas robaban arte para entrenar sus modelos de imagen. Luego, aprendimos cómo las empresas recopilaban datos de texto para entrenar sus chatbots. Ahora, lo mismo está sucediendo con el vídeo con IA. Estamos aprendiendo cómo varias empresas descargaron e incluso piratearon una gran cantidad de videos de diferentes sitios para entrenar sus modelos de video de IA.

Por ejemplo, un informe afirma que Runway descargó un montón de videos de YouTube para entrenar su modelo de IA, y posiblemente incluso pirateó videos. Además, los informes señalaron OpenAI extrayendo vídeos de YouTube entrenar a su AI modelo también. Entonces, el contenido que publicas en YouTube (ya sabes, ese contenido que publicas por el bien de la creación, no para ser robado para entrenar un modelo de IA) no es seguro.

Nvidia extrajo una tonelada de datos de vídeo para entrenar la IA

Esta información proviene de conversaciones y documentos de Slack filtrados dentro NVIDIA. La compañía tiene algunos planes importantes en proceso que involucran IA. Está entrenando un modelo llamado «Cosmos» y planea usarlo para aplicaciones como un generador de mundos 3D llamado Omniverse. Además, la empresa está trabajando en sistemas de vehículos autónomos.

Bueno, aplicaciones como estas requieren algunos datos de video importantes para funcionar correctamente, por lo que la compañía ordenó a los trabajadores que recogieran algunos datos importantes. Dado que YouTube es la plataforma para compartir vídeos más grande del mundo, ocupó el primer lugar en la lista de la compañía. Los empleados debían utilizar la herramienta de descarga de vídeos de YouTube llamada yt-dlp.

No fue tan simple, ya que también necesitaban utilizar máquinas virtuales en Amazon Web Services. En realidad, este método les permite actualizar sus direcciones IP, lo que les ayudó a evitar ser detectados por YouTube.

El Gran Botón Rojo no fue el único objetivo, ya que la compañía también pudo extraer videos de Netflix. La extracción de vídeos de YouTube puede ser un área legal gris, pero la extracción de vídeos de Netflix es una violación flagrante de algunas leyes graves.

En total, según los documentos, Nvidia pudo extrae alrededor de 80 años de datos de vídeo cada día! Aparentemente, lo suficiente nunca es suficiente para Nvidia. La empresa también apuntó a material académico no destinado al público, sino a la investigación.

Los ejecutivos no tuvieron ningún problema.

Obviamente, existen algunas cuestiones éticas y legales en torno a esta práctica. Si bien los videos de YouTube están técnicamente disponibles públicamente y la gran mayoría de ellos no tienen derechos de autor, YouTube afirma que el scraping de videos va en contra de sus términos de servicio.

Cuando se trata de Netflix, la mayoría de los videos grabados son propiedad legal exclusiva de compañías muy grandes y muy litigiosas, por lo que eso solo requiere algunas demandas importantes.

Sin embargo, según algunos de los mensajes de Slack, los ejecutivos de Nvidia confiaban en que la empresa no estaba haciendo nada malo. Dijeron que “cumplen plenamente la letra y el espíritu de la ley de derechos de autor”.

Pero, ¿lo son? Ahora que esta noticia salió a la luz, es solo cuestión de tiempo antes de que veamos Netflix y YouTube lo tomará. Dependiendo de la cantidad de datos que se hayan tomado, es posible que Nvidia tenga que tratar con algunas de las principales empresas de Hollywood, además del propio Netflix.

Fuente: Android authority

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *