Google lance l’assistant « Project Astra » dans les dernières avancées de l’IA | Dmshaulers

Google lance l'assistant « Project Astra » dans les dernières avancées de l'IA

Débloquez Editor’s Digest gratuitement

Alphabet, propriétaire de Google, a dévoilé un agent d’intelligence artificielle capable de répondre aux requêtes en temps réel via vidéo, audio et texte, dans le cadre d’une série d’initiatives conçues pour montrer ses prouesses en matière d’intelligence artificielle et apaiser les critiques selon lesquelles vous êtes en retard sur la concurrence.

Le PDG Sundar Pichai a présenté mardi le nouvel assistant d’IA « multimodal » du géant de la Silicon Valley appelé Project Astra, alimenté par une version améliorée de son modèle Gemini, lors d’une conférence annuelle des développeurs.

Astra faisait partie d’une série d’annonces visant à présenter une nouvelle vision centrée sur l’IA pour Google. Il fait suite aux lancements de produits et aux modèles d’IA améliorés de concurrents de grande taille, notamment Meta, Microsoft et son partenaire OpenAI.

Dans une démonstration vidéo, le prototype d’assistant IA de Google a répondu à des commandes vocales sur la base d’une analyse de ce qu’il voit via la caméra d’un téléphone ou à l’aide d’une paire de lunettes intelligentes.

Il a réussi à identifier des séquences de codes, à suggérer des améliorations aux schémas de circuits électriques, à reconnaître le quartier de King’s Cross à Londres à travers l’objectif de la caméra et à rappeler à l’utilisateur où il avait laissé ses lunettes.

Google prévoit de commencer à ajouter les capacités d’Astra à son application Gemini et à tous ses produits cette année, a déclaré Pichai. Cependant, il a prévenu que même si « l’objectif ultime est de rendre Astra disponible de manière transparente » dans l’ensemble des logiciels de l’entreprise, il sera déployé avec prudence et « le chemin vers la production sera axé sur la qualité ».

“Réduire le temps de réponse à quelque chose de conversationnel est un défi technique difficile”, a déclaré Sir Demis Hassabis, responsable de la branche de recherche sur l’IA DeepMind. “C’est incroyable de voir jusqu’où l’IA a progressé, notamment en matière de compréhension spatiale, de traitement vidéo et de mémoire.”

Lors de la conférence, Google a également présenté des changements majeurs apportés à son moteur de recherche principal. À partir de cette semaine, tous les utilisateurs américains verront un « Résumé IA » – une courte réponse récapitulative générée par l’IA à la requête – en haut de nombreux résultats de recherche courants, suivi de liens cliquables entrecoupés de publicités plus bas.

La société a ajouté que le système de recherche sera capable de répondre à des questions complexes avec un raisonnement en plusieurs étapes – ce qui signifie que l’agent IA peut prendre plusieurs décisions indépendantes pour accomplir une tâche – et aider les clients à générer des requêtes de recherche à l’aide de la voix et de la vidéo.

Liz Reid, responsable de la recherche Google, a déclaré que l’objectif était de “supprimer une partie du travail de recherche” et que l’aperçu de l’IA serait étendu aux utilisateurs d’autres parties du monde plus tard cette année.

Ces changements surviennent alors qu’OpenAI menace l’activité de recherche de Google.

Le chatbot ChatGPT de la startup basée à San Francisco fournit des réponses rapides et complètes à de nombreuses questions qui menacent de renvoyer des résultats de recherche obsolètes qui fournissent une liste traditionnelle de liens ainsi que de la publicité. OpenAI a également signé des accords avec des organisations médiatiques pour inclure des informations mises à jour afin d’améliorer leurs réponses.

Lundi – dans une démarche considérée comme une tentative de renforcer la messagerie de Google – OpenAI a présenté une version plus rapide et moins chère du modèle qui alimente ChatGPT, qui peut également interpréter la parole, la vidéo, les images et le code dans une seule interface.

Google a également dévoilé des produits d’IA nouveaux ou améliorés, notamment Veo, qui génère des vidéos à partir d’invites textuelles ; Imagen 3, qui crée des images ; et Lyria, un modèle de génération de musique IA. Les abonnés à Gemini Advanced pourront créer des chatbots personnels appelés « Gems » pour les aider dans des tâches spécifiques.

Le modèle phare de la société, Gemini 1.5 Pro, a également été mis à niveau. Il dispose désormais d’une fenêtre contextuelle beaucoup plus grande de 2 minutes. jetons – faisant référence à la quantité de données telles que du code ou des images auxquelles il peut faire référence lors de la génération d’une réponse – ce qui lui permet de mieux suivre des instructions nuancées et de se référer aux conversations précédentes.

Vidéo : IA : une bénédiction ou une malédiction pour l’humanité ? | Technologie FT

Leave a Reply

Your email address will not be published. Required fields are marked *