Stable diffusion

Selon Wikipédia, Stable Diffusion est un modèle d'apprentissage automatique. L'apprentissage automatique ou machine learning est un ensemble de moyens permettant à une machine « d'apprendre » à exécuter des tâches par entrainement. On ne va pas rentrer dans le détail du fonctionnement, ce n'est pas le but ici. Stable Diffusion ou SD permet de générer des images numériques photoréalistes à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d'autres tâches, comme la génération d'une image améliorée à partir d'une esquisse et d'une description textuelle.

Contrairement aux modèles concurrents comme DALL-E ou Midjourney, le code source de Stable Diffusion est public.
Ce qui veut dire qu'on peut le faire tourner sur une machine locale sans passer par un serveur en ligne avec les restrictions commerciales et financières associées.

Différents outils ont été développés pour faire tourner Stable diffusion avec des interfaces utilisateurs plus "conviviales" que par lignes de commande, la plupart développées en langage Python. On retiendra Automatic1111 (que l'on prononce "automatic eleven eleven"), sans doute la plus utilisée.


Plus puissant et polyvalent mais aussi étrangement moins populaire à cause de son côté "usine à gaz" qui repousse les débutants, voici ComfyUI que j'utilise personnellement plus que A1111. C'est une approche "nodal" c'est-à-dire que l'on connecte des blocs ensemble selon la logique voulue :


Citons enfin InvokeUI ou Fooocus que je n'utilise pas mais qui semblent être plus "user friendly" comme disent les Bretons.
Il suffit maintenant de nourrir tout cela avec des modèles et c'est ce que nous allons voir dans le prochain article.