La piñata

Un camarade réalisateur pour illustrer la couverture de son dossier de projet de long métrage, aimerait avoir une image polaroid d’une petite fille tapant sur une piñata en forme de poney dans un jardin sur fond de montagne grenobloise.
Il est parti d'une image stock shot qu’il a essayé de travailler pour un résultat qui rend un peu "fake".

Il m’a alors demandé si on pouvait voir si les IA étaient à même de répondre à ce problème. Ce qui m’intéresse c’est de voir comment avec une contrainte forte de génération d’images on arrive à se dépatouiller et quel « workflow » on met en place pour coller au mieux à la demande.
Si j’ai obtenu quelques résultats en m’appuyant sur stable diffusion et SDXL + controlnet et photoshop, ce n’était pas forcément évident d’un premier abord. Je détaille si après le cheminement.
J’ai fait ces essais hier sur mon ordi portable donc pas dans les meilleures conditions.
Je suis d’abord parti de l’image de Ludo et la version vraiment très incomplète de controlnet pour SDXL et les résultats ne sont pas terribles !

Finalement je décide de partir d’un prompt sans controlnet pour voir.

Le prompt :

Photo of a blindfolded little girl hitting a pony pinata with a baseball bat, bursting with confetti, in a garden with mountains in the background

Prompt negatif :

anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured

La pinata ne semble pas être le fort de sdxl. Je vérifie donc s'il vois ce que c’est (j’avais laissé trainer « polaroid » dans le prompt ce qui explique les cadres chelou) :

Bon, a priori il sait ce que c’est, essayons en forme de cheval :

Ok… c’est un peu luxe comme pinata ! Sans doute tiré d’un catalogue au vu de l’écriture en bas à droite.

Je cherche donc à écrire un prompt suffisamment détaillé pour avoir l’image d’ensemble mais je n’y arrive pas. C’est peut-être possible mais je ne sais pas comment. Malgré tout j’ai quelques images ratées qui me font bien rire !

Je décide donc de repartir d’une image sans la pinata et de l’ajouter à partir de l’image de Ludo.
Je choisis cette image ci-dessous, retire ce qui ne va pas et ajoute la pinata (en oubliant la ficelle) avec photoshop beta, refais la robe avec sdxl et modifie un peu le fond encore avec photoshop beta.

Après c’est bidouille classique avec photoshop pour un effet polaroid (à affiner, mais là on teste) :

L’image fait un peu plus crédible mais la pinata n'est pas encore trop convaincante.
J’essaye enfin de régénérer l’image avec controlnet en « depth of field » et SDXL .

Le z-index :

Quelques résultats avec réglage des forces et variation de prompt :

Bref ! Ce n’est pas complètement ça ! Malgré tout il y a une base et en mobilisant plusieurs outils on peut arriver à nos fins. Mais la question du contrôle de l’image et de son rendu me semble encore un peu fragile.

C’était un cas concret passé à l’étude, c’est tout pour moi, bises.