Google a dévoilé Whisk, un outil innovant d’intelligence artificielle dédié à la création d’images stylisées à partir de visuels existants.
Résumé
- Whisk génère des images à partir de visuels antérieurs en utilisant la puissance de l’IA.
- Une interface conviviale propose des styles prédéfinis pour une exploration efficace des créations.
- Le mode avancé permet d’utiliser des descriptions textuelles, bien que ses résultats restent perfectibles.
Une approche intuitive pour les utilisateurs
Whisk constitue un projet de Google Labs qui offre aux utilisateurs la possibilité de créer des visuels en s’appuyant sur une image existante comme point de départ. Ce générateur ne vise pas à répliquer fidèlement l’image originale, mais à en capturer l’essence, rendant ainsi le processus plus adapté à la création rapide et à l’expression créative. Dès l’ouverture de Whisk, on découvre une interface épurée, qui privilégie la simplicité et l’efficacité. Cet agencement minimaliste se concentre sur l’essentiel, facilitant les explorations visuelles avec rapidité et intuitivité.
Des options de styles pour encourager la créativité
L’outil inclut trois styles initiaux : « autocollant », « épingle en émail » et « peluche ». Ces choix sont pensés pour fournir des images claires et adaptées à des représentations stylisées. Ces styles permettent aux utilisateurs de matérialiser rapidement des concepts sans entrer dans des détails complexes. Par exemple, une image de « peluche Wilford Brimley » démontre le fonctionnement efficace de Whisk : une création rapide, sans prétendre reproduire l’image d’origine à l’identique.
Un monde avancé pour un contrôle accentué
Whisk propose également un mode « avancé », permettant aux utilisateurs de partir de zéro. Ils peuvent choisir des catégories spécifiques comme le sujet, la scène et le style, tout en précisant des détails textuels. Néanmoins, ce mode ne produit pas encore des résultats totalement convaincants. Par exemple, une demande d’image d’une scène précise peut conduire à des résultats flous, présentant des détails inattendus ou non cohérents. Cette situation met en lumière les limites actuelles de l’outil, qui ne parvient pas encore à livrer un contenu entièrement exploitable.
Une IA puissante aux capacités restrictives
Whisk repose sur deux modèles d’IA de Google : Gemini, qui génère des descriptions détaillées des images initiales, et Imagen 3, qui crée les visuels à partir de ces descriptions. Cette méthode explique les disparités notables entre les productions réalisées et les images sources. Google souligne que l’outil ne reproduit pas simplement l’apparence de l’image d’origine, mais en extrait des caractéristiques essentielles. Par exemple, des aspects comme la taille, le poids ou la couleur de la peau peuvent varier, ce qui peut poser problème pour certains utilisateurs. Actuellement, Whisk est uniquement accessible aux États-Unis, mais des perspectives d’expansion internationale pourraient émerger dans le futur.

