ControlNet : Un peu plus de maîtrise !

ControlNet peut être considéré comme une collection d'outils permettant un meilleur contrôle du rendu final. Ils embarquent souvent des petits modèles spécifiques pour accomplir leurs taches. Pas mal de ces contrôles s'appuient sur des images de référence et une collection de préprocesseurs sont en outre nécessaires pour préparer ces images.
Petit passage en revue non exhaustif.

Canny, Lineart, SoftEdge, Sketch etc... Les contours d'une image comme référence.

Canny et préprocesseur Canny

Je pars d'un croquis fait sur le massif de Beldone dans les Alpes. Le préprocesseur Canny en extrait les contours.

Prompt : cinematic photo Alpes landscape, snow . 35mm photograph, film, bokeh, professional, 4k, highly detailed


On a ici le dessin de départ, le rendu du préprocesseur et l'image final.

Autre exemple avec Lineart et le préprocesseur Lineart_realistic.


Depth et normal map, les informations 3D comme guide.

Avec Depth on s'appuie sur les informations de profondeur d'une image ou z index. Soit un z index généré par un logiciel 3D, soit "déduit" par un préprocesseur d'une image quelconque.
Exemple : une image tirée d'un film pas très connu, le z index généré par le préprocesseur (ici zoé, mais peu importe) et une image à l'ambiance très différente qui respecte la composition et la profondeur de l'image originale.


Normal map nous donne des informations de la façon dont les objets ou plutôt les facettes qui les composent sont orientées par rapport à l'observateur et la façon dont va se comporter la lumière.

On voit ici un plus grand respect de la "géométrie" générale de l'image.

Open pose, le squelette comme référence.

Avec open pose on analyse la pose des personnages pour créer un squelette référence. Tout le reste de l'image ne sera dépendant que du prompt.


Les personnages de l'image sont ici analysés dans leur posture et constituent le squelette de 2 autres personnages pour une image totalement différente.

Le prompt est une image

On peut aussi avec controlNet utiliser une image non pas pour en extraire des informations de composition, de géométrie, de profondeur ou autre mais comme référence en termes de contenu de l'image et de style. Contrairement à img2img qui s'appuie sur une image comme bruit initial, les données sont ici "sémantique". C'est non pas les pixels de l'image mais le "sens de ces pixels" qui est en jeu.

Avec le contrôleur IP Adapter pour Image Prompt Adapteur on produit des images "inspirées" puisque le prompt est l'image. Un prompt textuel peut être ajouté pour infléchir le rendu final.