Après les chatbots, la génération d’images et la création de vidéos, l’intelligence artificielle se dote d’un nouveau système (encore au stade expérimental) capable de générer des images à partir d’un enregistrement audio d’un lieu.


Le monde de l’intelligence artificielle se développe à toute vitesse. En un clin d’œil, des innovations basées sur l’IA sont déjà en développement. Le système de chatbot utilisant des modèles de langage naturel a été l’une des premières utilisations à grande échelle de l’IA. Aujourd’hui, tout le monde utilise ChatGPT ou Gemini pour répondre à ses questions.
Il en va de même pour l’image, il est devenu monnaie courante de demander la création d’une image à partir d’une description. Vous pouvez demander la création d’une vidéo, ou demander à l’IA de résumer une vidéo YouTube, de rédiger des articles, de traduire et d’expliquer des textes, de retoucher une image, d’automatiser des tâches sur votre ordinateur, etc.
Bref, l’intelligence artificielle est utilisée dans de nombreux domaines et à de nombreuses fins.
Utiliser l’audio pour générer des images
Il était déjà possible de converser vocalement avec votre chatbot. Il ne s’agit que d’une étape pour générer des images à partir de la voix et d’une autre étape pour que les systèmes d’IA génèrent des effets sonores correspondant à des images fixes de lieux.
Développé par des professeurs de l’Université d’Austin au Texas, un « modèle de streaming son-image » a été testé et entraîné sur des clips audiovisuels de 10 secondes représentant des environnements urbains ou des zones rurales.
Grâce à des algorithmes de deep learning, le système a appris à reconnaître quels sons correspondaient à quels éléments des images, mais aussi quelles qualités sonores correspondaient à quels environnements visuels.
Une fois la phase d’apprentissage terminée, une centaine de sons ambiants lui ont été proposés, générant ainsi une image par bande sonore et les correspondances sont plutôt étonnantes.


Pour valider l’expérience, les humains avaient pour mission d’associer une image parmi 3 (dont une évidemment générée par l’IA) aux différentes bandes sonores soumises à l’IA. Le taux de correspondance était de 80 %.
Dans quels cas ce système pourrait-il être utile ? On pense évidemment à une application d’investigation médico-légale pour identifier un environnement à partir d’un enregistrement audio, mais les scientifiques réfléchissent plutôt à en profiter pour améliorer le développement urbain et donc la vie des concitoyens.