Les meilleures annonces IA de Google I/O | Dmshaulers

The top AI announcements from Google I/O

Google se lance à fond dans l’IA – et il veut que vous le sachiez. Lors du discours d’ouverture de la société lors de sa conférence des développeurs d’E/S mardi, Google a mentionné « IA » plus de 120 fois. C’est beaucoup!

Mais toutes les annonces de Google en matière d’IA n’étaient pas elles-mêmes significatives. Certains étaient progressifs. D’autres ont été ressassés. Donc, pour vous aider à trier le bon grain de l’ivraie, nous avons rassemblé les meilleurs nouveaux produits et fonctionnalités d’IA dévoilés lors de Google I/O 2024.

Google prévoit d’utiliser l’intelligence artificielle générative pour organiser toutes les pages de résultats de recherche de Google.

À quoi ressembleront les pages organisées par l’IA ? Eh bien, cela dépend de la requête de recherche. Mais ils peuvent afficher des résumés d’avis générés par l’IA, des discussions sur les réseaux sociaux comme Reddit et des listes de suggestions générées par l’IA, a indiqué Google.

Pour l’instant, Google prévoit d’afficher des pages de résultats améliorées par l’IA lorsqu’il détecte qu’un utilisateur est à la recherche d’inspiration, par exemple lorsqu’il planifie un voyage. Bientôt, il affichera également ces résultats lorsque les utilisateurs rechercheront des options de restauration et des recettes, avec des résultats pour des films, des livres, des hôtels, du commerce électronique et bien plus encore.

Projet Astra et Gemini Live

Crédit image : Google Google

Google améliore son chatbot Gemini, basé sur l’IA, afin de mieux comprendre le monde qui l’entoure.

La société a présenté en avant-première une nouvelle expérience dans Gemini appelée Gemini Live, qui permet aux utilisateurs d’avoir des discussions vocales « approfondies » avec Gemini sur leurs smartphones. Les utilisateurs peuvent interrompre Gemini pendant que le chatbot parle pour poser des questions de clarification, et celui-ci s’adapte à leurs modèles de parole en temps réel. Et Gemini peut voir et réagir à l’environnement des utilisateurs, soit via des photos ou des vidéos capturées par les caméras de leur smartphone.

Gemini Live, qui ne sera lancé que plus tard cette année, peut répondre à des questions sur des éléments visibles (ou récemment visibles) par l’appareil photo d’un smartphone, comme le quartier dans lequel se trouve un utilisateur ou le nom d’une pièce sur un appareil cassé. vélo de voiture. Les innovations techniques qui alimentent Live proviennent en partie du projet Astra, une nouvelle initiative au sein de DeepMind visant à créer des applications et des « agents » basés sur l’IA pour une compréhension multimodale en temps réel.

Google Véo

Hélas
Crédit image : Google

Google recherche Sora d’OpenAI avec Veo, un modèle d’IA capable de créer des clips vidéo 1080p d’environ une minute lorsqu’on lui demande du texte.

Veo peut capturer divers styles visuels et cinématographiques, notamment des séquences de paysages et des accélérés, et apporter des modifications et des ajustements aux séquences déjà générées. Le modèle comprend assez bien les mouvements de la caméra et les effets visuels à partir des invites (pensez à des descripteurs comme « panoramique », « zoom » et « explosion »). Et Veo a une bonne compréhension de la physique (des choses comme la dynamique des fluides et la gravité), ce qui ajoute au réalisme des vidéos qu’il génère.

Veo prend également en charge l’édition masquée pour les modifications apportées à des zones spécifiques d’une vidéo et peut générer des vidéos à partir d’une image fixe, à la manière de modèles génératifs comme Stable Video de Stability AI. Peut-être le plus intriguant, étant donné une séquence d’invites qui racontent ensemble une histoire, Veo peut générer des vidéos plus longues – des vidéos de plus d’une minute.

Demander des photos

Crédit image : TechCrunch

Google Photos bénéficie d’une infusion d’IA avec le lancement d’une fonctionnalité expérimentale appelée Ask Photos, optimisée par la famille Gemini de modèles d’IA générative de Google.

Ask Photos, qui sera lancé plus tard cet été, permet aux utilisateurs d’effectuer des recherches dans leur collection Google Photos à l’aide de requêtes en langage naturel qui exploitent la compréhension de Gemini du contenu de leur photo et d’autres métadonnées.

Par exemple, au lieu de rechercher un élément spécifique dans une image, comme « One World Trade », les utilisateurs pourront effectuer des recherches beaucoup plus larges et complexes, comme trouver « la meilleure image de chacun des parcs nationaux que j’ai visités ». ” Dans cet exemple, Gemini utiliserait des indices tels que l’éclairage, le flou et l’absence de distorsion d’arrière-plan pour déterminer ce qui fait d’une image la « meilleure » dans un ensemble donné et combinerait cela avec une compréhension des informations de géolocalisation et des dates pour renvoyer l’image. images pertinentes.

Gémeaux dans Gmail

Crédit image : TechCrunch

Les utilisateurs de Gmail pourront bientôt rechercher, résumer et rédiger des e-mails grâce à Gemini – ainsi qu’agir sur les e-mails pour des tâches plus complexes, comme aider à traiter les retours.

Dans une démo présentée à I/O, Google a montré comment un parent pouvait suivre ce qui se passait à l’école de son enfant en demandant à Gemini de résumer tous les e-mails récents de l’école. En plus des e-mails eux-mêmes, Gemini analysera également les pièces jointes, telles que les PDF, et crachera un résumé des points clés et des points d’action.

À partir d’une barre latérale de Gmail, les utilisateurs peuvent demander à Gemini de les aider à organiser les reçus de leurs e-mails et même de les placer dans un dossier Google Drive ou d’extraire des informations des reçus et de les coller dans une feuille de calcul. Si c’est quelque chose que vous faites souvent (par exemple, en tant que voyageur d’affaires pour suivre les dépenses), Gemini peut également vous proposer d’automatiser le flux de travail pour une utilisation future.

Détection de fraude lors des appels

Crédit image : Google

Google a présenté en avant-première une fonctionnalité basée sur l’IA pour alerter les utilisateurs des escroqueries potentielles lors d’un appel.

Cette fonctionnalité, qui sera intégrée à une future version d’Android, utilise Gemini Nano, la plus petite version de l’offre d’IA générative de Google pouvant fonctionner entièrement sur l’appareil, pour écouter en temps réel les « modèles de conversation généralement associés à la fraude ».

Aucune date de sortie spécifique n’a été fixée pour la fonctionnalité. Comme beaucoup de ces choses, Google prévoit tout ce que le Gemini Nano sera capable de faire à l’avenir. Cependant, nous savons que la fonctionnalité sera facultative, ce qui est une bonne chose. Bien que l’utilisation de Nano signifie que le système ne télécharge pas automatiquement l’audio vers le cloud, le système écoute toujours efficacement les conversations des utilisateurs – un risque potentiel pour la vie privée.

L’IA pour l’accessibilité

Crédit image : Google

Google améliore sa fonctionnalité d’accessibilité TalkBack pour Android avec un peu de magie de l’IA générative.

Bientôt, TalkBack exploitera Gemini Nano pour créer des descriptions audio d’objets pour les utilisateurs malvoyants et aveugles. Par exemple, TalkBack peut décrire un vêtement comme : « Un gros plan d’une robe à carreaux vichy noir et blanc. La robe est courte, avec un col et des manches longues. Elle se noue à la taille avec un grand nœud. »

Selon Google, les utilisateurs de TalkBack rencontrent environ 90 images non taguées par jour. Grâce à Nano, le système sera en mesure de donner un aperçu du contenu, évitant ainsi à quelqu’un de devoir saisir manuellement ces informations.

Nous lançons une newsletter IA ! Registre ici pour commencer à le recevoir dans vos boîtes de réception le 5 juin.

En savoir plus sur Google I/O 2024 sur TechCrunch

Leave a Reply

Your email address will not be published. Required fields are marked *