Google dévoile Veo, un générateur vidéo IA haute définition pour rivaliser avec Sora | Dmshaulers

Google dévoile Veo, un générateur vidéo IA haute définition pour rivaliser avec Sora
Agrandir / Images fixes tirées de vidéos générées par Google Veo.

Google/Benj Edwards

Mardi lors du Google I/O 2024, Google a annoncé Hélas, un nouveau modèle de synthèse vidéo IA capable de créer des vidéos HD à partir d’invites de texte, d’image ou de vidéo, similaire à Sora d’OpenAI. Il peut générer des vidéos 1080p d’une durée de plus d’une minute et éditer des vidéos sur la base d’instructions écrites, mais il n’a pas encore été diffusé pour une utilisation généralisée.

Veo aurait la possibilité d’éditer des vidéos existantes à l’aide de commandes de texte, de maintenir une cohérence visuelle entre les images et de générer des séquences vidéo d’une durée allant jusqu’à 60 secondes et au-delà à partir d’une seule invite ou d’une série d’invites formant un récit. La société affirme pouvoir générer des scènes détaillées et appliquer des effets cinématographiques tels que des time-lapses, des prises de vue aériennes et divers styles visuels.

Depuis le lancement de DALL-E 2 en avril 2022, nous avons assisté à un défilé de nouveaux modèles de synthèse d’images et de synthèse vidéo qui visent à permettre à toute personne sachant rédiger une description écrite de créer une image ou une vidéo détaillée. Bien qu’aucune des deux technologies n’ait été complètement perfectionnée, les générateurs d’images et de vidéos IA sont devenus progressivement plus performants.

En février, nous avons présenté un aperçu du générateur vidéo Sora d’OpenAI, qui, selon beaucoup, représentait à l’époque la meilleure synthèse vidéo IA que l’industrie puisse offrir. Cela a suffisamment impressionné Tyler Perry pour qu’il suspende l’agrandissement de ses studios de cinéma. Mais jusqu’à présent, OpenAI n’a pas donné un accès général à l’outil – au lieu de cela, ils ont limité son utilisation à un groupe sélectionné de testeurs.

À première vue, Veo de Google semble être capable de générer des vidéos similaires à Sora. Nous ne l’avons pas essayé nous-mêmes, nous ne pouvons donc nous fier qu’aux vidéos de démonstration triées sur le volet fournies par l’entreprise. sur son site internet. Cela signifie que quiconque les voit doit prendre les affirmations de Google avec des pincettes, car les résultats de la génération peuvent ne pas être typiques.

Les exemples de vidéos de Veo incluent un cowboy montant à cheval, un plan rapide dans une rue de banlieue, des brochettes grillées, un time-lapse d’une ouverture de tournesol, et bien plus encore. Les représentations détaillées des humains, qui ont toujours été difficiles à générer pour les modèles d’images et de vidéos d’IA sans distorsions évidentes, sont remarquablement absentes.

Google affirme que Veo s’appuie sur les modèles de génération vidéo précédents de l’entreprise, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phénaki, WALT, VideoPoet et Lumière. Pour augmenter la qualité et l’efficacité, les données de formation de Veo incluent des sous-titres vidéo plus détaillés et utilisent des représentations vidéo « latentes » compressées. Pour améliorer la qualité de génération vidéo de Veo, Google a inclus des légendes plus détaillées pour les vidéos utilisées pour entraîner Veo, permettant à l’IA d’interpréter les invites avec plus de précision.

Veo semble également remarquable pour prendre en charge les commandes de création de films : “Lorsqu’on lui donne à la fois une vidéo d’entrée et une commande d’édition, comme l’ajout de kayaks à une vue aérienne d’un littoral, Veo peut appliquer cette commande à la vidéo initiale et créer une nouvelle vidéo éditée, ” dit l’entreprise.

Même si les démos semblent impressionnantes à première vue (surtout si on les compare à Will Smith mangeant des spaghettis), Google reconnaît que la génération de vidéos IA est difficile. “Maintenir la cohérence visuelle peut être un défi pour les modèles de génération vidéo”, écrit la société. “Des personnages, des objets ou même des scènes entières peuvent scintiller, sauter ou se transformer de manière inattendue entre les images, perturbant ainsi l’expérience visuelle.”

Google a tenté d’atténuer ces inconvénients avec des « transformateurs de diffusion latente de pointe », qui sont fondamentalement un charabia marketing dénué de sens et sans détails. Mais l’entreprise est suffisamment confiante dans le modèle qu’elle propose. travailler avec l’acteur Donald Glover et son studio, Gilga, pour créer un film de démonstration généré par l’IA qui sera bientôt présenté en première.

Dans un premier temps, Veo sera disponible pour certains créateurs via VidéoFX, un nouvel outil expérimental disponible sur le site AI Test Kitchen de Google, labs.google. Les créateurs peuvent s’inscrire sur une liste d’attente VideoFX pour potentiellement accéder aux fonctionnalités de Veo dans les semaines à venir. Google prévoit d’intégrer à l’avenir certaines des fonctionnalités de Veo dans YouTube Shorts et d’autres produits.

On ne sait pas encore où Google a obtenu les données de formation pour Veo (si nous devions deviner, YouTube était probablement impliqué). Mais Google affirme adopter une approche « responsable » avec Veo. Selon l’entreprise, « les vidéos créées par Veo sont filigranées à l’aide de ID de synthétiseurnotre outil de pointe pour le filigrane et l’identification du contenu généré par l’IA, et passé par des filtres de sécurité et des processus de vérification de la mémoire qui aident à atténuer les risques de confidentialité, de droits d’auteur et de préjugés.

Leave a Reply

Your email address will not be published. Required fields are marked *