https://stability.ai a dévoilé Stable Diffusion 3 (SD3), un modèle de génération d’images par texte qui surpasse les technologies actuelles telles que DALL·E 3 et Midjourney v6.
SD3 se distingue par son architecture innovante, le Multimodal Diffusion Transformer (MMDiT), qui utilise des poids distincts pour les images et le texte.
Cela améliore considérablement la compréhension des instructions textuelles et le rendu des images.
- Architecture MMDiT : Permet une meilleure intégration du texte et de l’image.
- Typographie et suivi des instructions : Performance supérieure par rapport aux concurrents.
- Flux rectifié : Réduction des étapes de génération, rendant le processus plus direct et efficace.
J’ai réalisé plusieurs essais entre les versions SD2.0, SD2.1 et SD3 de Stable Diffusion via le site Huggingface.
Dans mes tests, les différences entre ces versions étaient minimes en ce qui concerne les décors et les paysages. Cependant, pour l’ajout de texte dans les images, SD3 est véritablement bluffant.
Actuellement, j’utilise principalement ComfyUI ou SDXL pour la génération de texte, mais aucune de ces options n’atteint la perfection observée avec SD3. La précision et la qualité des textes intégrés dans les images avec SD3 sont sans équivalent.
Voici le prompt que j’ai utilisé et les configurations de base :
- logo of IT team, blue and black color, with sea and text : »OCEAN »
- Seed : 1113005371
- SamplerDPM++ 2M Karras
- CFG Scale7Steps 20
- Image format 1:1