Google ha presentado VideoPoet, un modelo de lenguaje grande (LLM) que rompe los límites en la generación de vídeos con clips de 10 segundos que producen menos artefactos.
El modelo puede realizar varias tareas de generación de vídeo, como convertir texto o imágenes en vídeo, cambiar el estilo, rellenar huecos y generar audio. El modelo destaca por generar vídeos coherentes con grandes movimientos, sin depender de datos específicos para cada caso.
El modelo se basa en un modelo grande multimodal, que integra todas las tareas de generación de vídeo en un solo LLM. Los vídeos resultantes tienen una longitud variable y acciones y estilos diversos según el contenido del texto de entrada.
VideoPoet también puede animar imágenes estáticas según las indicaciones proporcionadas. La llegada de VideoPoet abre nuevas posibilidades para la generación de vídeo impulsada por la inteligencia artificial de cara al 2024.