Google présente de nouveaux outils dédiés à la description d’images et à la transcription des émotions, visant en priorité les utilisateurs anglophones.
TL; DR
- Google renforce l’accessibilité d’Android via une version améliorée de Talkback, capable de décrire les images grâce à l’intelligence artificielle Gemini.
- Les sous-titres « expressifs » gagnent en précision, en intégrant émotions, tonalités et éléments de contexte dans les transcriptions.
- Ces fonctionnalités sont actuellement accessibles en anglais sur Android 15, dans quatre pays, avec une future expansion prévue.
Les dernières avancées de Google pour Android
À l’occasion de la Journée mondiale de la sensibilisation à l’accessibilité, Google a présenté ses dernières innovations en matière d’accessibilité numérique. Parmi ces nouveautés, une mise à jour significative du lecteur d’écran intégré d’Android, appelé Talkback, ainsi qu’une amélioration des sous-titres nommés « expressifs ».
Talkback se renforce grâce à l’IA Gemini
Auparavant limité dans ses capacités pour les images sans texte alternatif, Talkback évolue grâce aux avancées du modèle Gemini. Désormais, cet outil ne se contente plus de donner une brève description des photos reçues. Il permet à l’utilisateur de poser des questions ciblées sur le contenu visuel, que ce soit le modèle ou la couleur d’une guitare envoyée par un ami, ou encore les objets en arrière-plan. Cette fonctionnalité s’étend à l’analyse de l’ensemble de l’écran. Lors de sessions de shopping en ligne, on peut demander, par exemple, la nuance exacte d’un vêtement ou sa disponibilité en promotion.
Sous-titres expressifs : vers une transcription émotionnelle fidèle
Parallèlement, les sous-titres automatiques connaissent une avancée technologique remarquable. Le célèbre module Légendes expressives, déjà lancé fin 2023, évolue significativement. Ces sous-titres ne se contentent plus de retranscrire les mots, mais incrémentent aussi des annotations contextuelles, comme « [grognement] » lorsqu’un participant exprime une émotion lors d’un appel vidéo. Plus impressionnant encore, ils rendent compte des variations de durée et d’accentuation : lors d’une diffusion en direct, un commentateur s’exclamant « Goallllll » verra cette intensité traduite à l’écran. De plus, davantage d’étiquettes sonores apparaissent, comme lorsque quelqu’un se gratte la gorge.
Voici les avancées majeures proposées :
- Description intelligente des images sans texte alternatif.
- Sous-titrage émotionnel enrichi et précis.
- Ce déploiement est, pour l’instant, réservé aux utilisateurs anglophones sous Android 15 et versions ultérieures aux États-Unis, au Royaume-Uni, au Canada et en Australie.
Vers une accessibilité repensée pour tous ?
Avec cette initiative, Google s’inscrit dans une démarche mondiale soutenue par les grands acteurs du secteur mobile. Cette évolution laisse présager des bénéfices étendus pour un public plus large. Reste à déterminer si ces avancées toucheront également les francophones ou d’autres marchés négligés. En attendant, ces outils incarnent une nouvelle approche pour une navigation plus inclusive sur smartphone.

