L'IA génère des images très précises des rues simplement en écoutant leur bande sonore

Après les chatbots, la génération d’images et la création de vidéos, l’intelligence artificielle se dote d’un nouveau système (encore au stade expérimental) capable de générer des images à partir d’un enregistrement audio d’un lieu.

Rue de New York — Rue à New York Crédit : Lenzatic – pixabay

Le monde de l’intelligence artificielle se développe à toute vitesse. En un clin d’œil, des innovations basées sur l’IA sont déjà en développement. Le système de chatbot utilisant des modèles de langage naturel a été l’une des premières utilisations à grande échelle de l’IA. Aujourd’hui, tout le monde utilise ChatGPT ou Gemini pour répondre à ses questions.

Il en va de même pour l’image, il est devenu monnaie courante de demander la création d’une image à partir d’une description. Vous pouvez demander la création d’une vidéo, ou demander à l’IA de résumer une vidéo YouTube, de rédiger des articles, de traduire et d’expliquer des textes, de retoucher une image, d’automatiser des tâches sur votre ordinateur, etc.

Bref, l’intelligence artificielle est utilisée dans de nombreux domaines et à de nombreuses fins.

Utiliser l’audio pour générer des images

Il était déjà possible de converser vocalement avec votre chatbot. Il ne s’agit que d’une étape pour générer des images à partir de la voix et d’une autre étape pour que les systèmes d’IA génèrent des effets sonores correspondant à des images fixes de lieux.

Développé par des professeurs de l’Université d’Austin au Texas, un « modèle de streaming son-image » a été testé et entraîné sur des clips audiovisuels de 10 secondes représentant des environnements urbains ou des zones rurales.

Grâce à des algorithmes de deep learning, le système a appris à reconnaître quels sons correspondaient à quels éléments des images, mais aussi quelles qualités sonores correspondaient à quels environnements visuels.

Une fois la phase d’apprentissage terminée, une centaine de sons ambiants lui ont été proposés, générant ainsi une image par bande sonore et les correspondances sont plutôt étonnantes.

Exemples d'images de rue générées par l'IA comparées à de véritables images vidéo de rue — Exemples d’images de rue générées par l’IA comparées à de véritables images vidéo de rue. ©Université d’Austin, Texas

Pour valider l’expérience, les humains avaient pour mission d’associer une image parmi 3 (dont une évidemment générée par l’IA) aux différentes bandes sonores soumises à l’IA. Le taux de correspondance était de 80 %.

Dans quels cas ce système pourrait-il être utile ? On pense évidemment à une application d’investigation médico-légale pour identifier un environnement à partir d’un enregistrement audio, mais les scientifiques réfléchissent plutôt à en profiter pour améliorer le développement urbain et donc la vie des concitoyens.

What's Hot

Marque employeur et goodies d’entreprise : ce que les objets personnalisés disent de votre organisation

Comment choisir un ordinateur gaming performant en 2026 ?

IBM s’engage à investir 10 milliards de dollars pour révolutionner l’informatique quantique d’ici 5 ans

L’IA génère des images très précises des rues simplement en écoutant leur bande sonore

Marque employeur et goodies d’entreprise : ce que les objets personnalisés disent de votre organisation

Personnalisation de tee-shirts pour les équipes et les événements professionnels

Les technologies numériques dans l’évolution de la scène du gaming

Leave A Reply Cancel Reply

Silo saison 3 : date, intrigue et nouveautés à ne pas manquer

Anime-Sama.fr : Tout savoir sur la plateforme de streaming manga

Les incontournables smartphones Google Pixel à connaître en août 2025

Les plus Populaires

Gemini gratuit : tout savoir sur l’accès sans frais

Et si votre lieu idéal était écrit dans les étoiles ? L’astrocartographie pour mieux choisir où vivre

Top agences GEO en 2026 : les leaders de l’optimisation pour moteurs IA et de la croissance organique

Nos Choix

Marque employeur et goodies d’entreprise : ce que les objets personnalisés disent de votre organisation

Comment choisir un ordinateur gaming performant en 2026 ?

IBM s’engage à investir 10 milliards de dollars pour révolutionner l’informatique quantique d’ici 5 ans

What's Hot

L’IA génère des images très précises des rues simplement en écoutant leur bande sonore

Utiliser l’audio pour générer des images

Related Posts

Leave A Reply Cancel Reply