Veo de Google génère des vidéos 1080p générées par l’IA sur une durée d’une minute | Dmshaulers

Veo de Google génère des vidéos 1080p générées par l'IA sur une durée d'une minute

Google a annoncé un nouveau modèle d’IA révolutionnaire nommé « Veo » qui prendra en charge la génération de vidéos, adaptée aux visions créatives des utilisateurs. Google met également à niveau son modèle de génération d’images, le portant à sa troisième génération dans Imagen 3.

Bard a été l’un de nos premiers aperçus des LLM d’IA modernes sous Google. Cette version a été lancée il y a environ un an, avec des changements majeurs apportés à la plateforme ces derniers mois. L’un des changements les plus importants a été un changement complet de nom, rebaptisant l’outil d’IA destiné à l’utilisateur sous le nom de Gemini, qui s’est désormais répandu dans la gamme de produits de l’entreprise avec Gemini Nano dans les appareils actuels et à venir et Gemini Pro.

Juste avant que Bard ne soit renommé Gemini, Google a ajouté la possibilité de demander des images via le modèle conversationnel de l’IA. Demander une photo d’une vache sur un bateau restituerait exactement cela dans le style que vous jugerez approprié. Ce processus a été piloté par Imagen 2, qui était la première version accessible au public.

Le modèle Veo de Google

Aujourd’hui, Google annonce deux modèles de génération créative, le Veo et l’Imagen 3. Le Veo est le plus excitant, car c’est quelque chose que le public n’a pas encore pu essayer. Le modèle est conçu spécifiquement pour la génération vidéo, comprenant la sémantique visuelle et le langage naturel, similaire à d’autres modèles modernes. L’approche apportée à la génération vidéo produit des résultats qui peuvent être adaptés de manière créative pour s’adapter à des styles spécifiques.

Google note que le modèle Veo sera capable de comprendre les « expressions cinématographiques » dans les invites utilisateur, telles que les photos aériennes et les formats timelapse. Veo est capable de générer des vidéos en 1080p pouvant durer plus d’une minute, surpassant les modèles actuels tels que Sora d’OpenAI, qui dure au maximum 60 secondes.

Veo s’appuie sur des années de travail de modélisation vidéo générative, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere – combinant l’architecture, les lois de mise à l’échelle et d’autres nouvelles techniques pour améliorer la qualité et la résolution de sortie. .

Google invite les créateurs et les cinéastes à mettre Veo à l’épreuve pour façonner le modèle afin qu’il s’adapte à un large éventail de styles et d’utilisations artistiques.

Image 3

Le modèle Imagen bénéficie également d’une mise à jour importante. Imagen 3 se positionne comme le modèle texte-image de « la plus haute qualité » de Google et offre quelques améliorations par rapport au modèle Imagen 2 que nous avons vu dans Gemini et Bard.

Imagen 3 apporterait un niveau de détail plus élevé aux images sans autant d’artefacts visuels et d’impuretés dans les images générées. Les images sont plus photoréalistes et réalistes lorsqu’elles sont nécessaires.

La plus grande amélioration est peut-être la capacité d’Imagen 3 à restituer du texte. C’est devenu une faiblesse comique des modèles de conversion texte-image tels que DALL-E et Adobe Firefly. Google positionne le nouveau modèle comme un moyen de créer des images personnalisées avec du texte, telles que des cartes de vœux ou des images avec des messages. Il reste à voir dans quelle mesure il restitue réellement le texte, mais c’est une amélioration prometteuse.

Veo et Imagen 3 seront disponibles pour une utilisation dans un aperçu privé via VideoFX de Google Labs. VideoFX utilisera SynthID pour garantir que le contenu créé est filigrané numériquement et généré de manière responsable.

Ceux qui souhaitent essayer les nouveaux modèles peuvent s’inscrire via la liste d’attente de Google.

FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Plus.

Leave a Reply

Your email address will not be published. Required fields are marked *