La tête dans le FLUX

Depuis quelques temps un nouveau modèle a débarqué sur ma machine. Il s'agit de FLUX 1.0 Dev, représentant d'une famille de modèles (Pro, Dev, Shnell) développée par la société Black Forest en partie formée par d'anciens de chez Stability IA (Stable diffusion). Cette famille de modèles se montre pour le moins performante que ce soit en termes de qualité d'image ou de respect du prompt. Les versions Dev et Shnell sont utilisables gratuitement mais simplement à titre expérimental, sans usage commercial. C'est mieux que rien même si je suis plutôt partisan de l'open source.
Voici un passage en revue du modèle Dev qui fonctionne en local et que j'utilise à travers ComfyUI, mon outil de prédilection pour l'utilisation d'IA en local.
Par la suite d'autres modèles associés à Flux sont arrivés comme REDUX puis très récemment KONTEXT.
Il est temps de faire un petit tour d'horizon de ces nouveaux modèles.
On commence par le modèle de base Flux et je détaillerai les autres ajouts dans les articles suivants.

En premier lieu voyons ce que Flux 1.0 Dev a dans le ventre en termes de qualité d'image et de respect du prompt.
On va partir avec un prompt volontairement très détaillé que voici (traduit en français) :

Une femme sourit, vêtue d'une robe en lin gris foncé avec une ceinture blanche et des collants à larges rayures horizontales noires et grises. Elle porte des crocs roses aux pieds. Elle a un corbeau bleu aux yeux rouges posé sur son épaule. elle se tient debout, les mains sur les hanches. Elle a les cheveux attachés et regarde le spectateur. Elle se trouve dans un atelier d'art ancien et en désordre, envahi de plantes d'intérieur et entouré de vieux dessins, de chiffons et de matériel de peinture éparpillés. Le sol est recouvert de vieux tapis persans très abîmés. Une douce lumière naturelle pénètre par une grande fenêtre cintrée. La scène évoque un sentiment de mélancolie. Le style est détaillé et hyperréaliste

On constate que le prompt est assez bien respecté, sans commune mesure avec le model SDXL. L'amélioration de ce point de vue est flagrante. La qualité d'image n'est pas en reste, avec une grande amélioration par rapport à SDXL. Voici quelques exemples pour vous faire une idée de la qualité.

Certains Lora Flux, c'est à dire des petits modèles entrainés sur des tâches spécifiques et dont je parle ici, sont particulièrement efficaces, comme par exemple pour un rendu style "iPhone" :

Comme on peut le voir, Flux est un bon modèle avec un respect satisfaisant du prompt. De base et sans recours à des Lora, je le trouve moins performant sur des styles dessin, peinture etc... c'est aussi un modèle qui a bénéficié d'un gros "fine-tuning", c'est à dire de réglages fins. Cela le rend plus rapidement efficace mais aussi moins "bidouillable" par la communauté comme peut l'être SDXL ou même Stable Diffusion 3.5. Ceux-ci sont moins performants de base sur la qualité des images mais beaucoup plus customisables et donc adaptables à des tâches très diverses. Le modèle n'étant pas open source, son usage est aussi forcement limité.

Je vous laisse avec une petite galerie d'exemples et dans le prochain article, je m'intéresserai de plus près à REDUX.