С самого возникновения генеративных моделей изображений главной их проблемой и одновременно достоинством была непредсказуемость финального результата – вы просили кошку и получали её лежащей на диване или играющей с шариком, сидящей спиной и так далее. И порой нейронка действительно выдаёт шедевры именно за счёт случайности. Но предположим, вам нужна конкретная поза, допустим, для промо-материалов курсов по йоге, и что тогда делать? Пытаться описать сложный анатомический рисунок словами в промте? Представить результат страшновато. А что, если вы хотите взять красивую фотографию любимой и превратить её в портрет маслом? Портрет маслом вы, вероятнее всего, получите, но вот сходство с оригиналом будет весьма условным. Разумеется, для таких нужд можно и правильнее использовать стили, но я — для примера. Все эти и многие другие задачи позволяют решить ControlNet-модели – они работают поверх основных моделей и делают возможным использование референсного изображения.

В чём суть: обычно генерация опирается на промт, текстовое описание, но контролнет-модели дополнительно позволяют использовать референсное изображение. Вы можете написать промт “orange cat sleeps at sofa” и приложить изображение, где на диване спит серый кот, в итоге получив такую же позу. И диван, если нужно. Волшебство, не правда ли?

Долгое время для моделей Flux не было ControlNet, и поэтому он не мог полностью заместить старые модели на базе Stable Diffusion 1.5. Чтобы получить хороший рекламный арт, приходилось создавать изображение 800х800, прогонять его через апскейлер, дорабатывать определённые участки, делая реалистичную кожу, и так далее. Не на один час работы было. Но всё изменилось с выходом Flux Tools.1.

Flux Tools

Набор содержит четыре модели – Fill, Depth, Redux и Canny. Fill – это модель для Inpaint и outpaint, поскольку он и так работает в стоковых Flux-моделях, я этот контролнет обычно не использую. Redux смешивает стили, опираясь на промт, и исходное изображение, по сути, тоже смысла не имеет – мы уже видели такое в Forge на вкладке img2img. Мне за глаза и за уши хватает тех стилей, что предлагает уже упомянутый интерфейс. Таким образом, чаще всего используются только Depth и Canny. Также существуют разные разрядности моделей: FP16, FP8 и GGUF. FP16 – полная модель, выдающая наилучшая качество, но весит она 23 с лишним гигабайта и подходит для видеокарт с 24 ГБ видеопамяти, а это старшие модели 30-й и 40-й серий, которые стоят не дёшево. Для 12 ГБ, как у меня, подойдут FP8-модели, которые весят 11 ГБ, а GGUF-версии поддерживают старенькие видеокарты с 6 ГБ графической памяти и весит тоже около 6 ГБ.

В новом интерфейсе ComfyUI достаточно выбрать подходящий шаблон из списка и позволить ему всё скачать и разложить по папкам. Впрочем, такой подход лишает вас гибкости, например: он может скачать fp16-версии моделей и энкодеров, что на средней системе, возможно, приведёт к зависанию компьютера. Потому я ставлю по старинке, ручками, однако вы можете попробовать автозакачку.

Кроме моделей, нам понадобятся текстовые энкодеры (это для создания или изменения надписей, но без них, даже при отсутствии текста на фото, работать не будет) – clip_l. t5xxl и VAE. Напомню, что последняя – своеобразный переводчик между человеческим и машинным языками. Где всё это брать?

FP8–модели я качал из этого репозитория: https://huggingface.co/boricuapab, а энкодеры и VAE брал из официального репозитория ComfyUI: https://huggingface.co/Comfy-Org/Lumina_Image_2.0_Repackaged/tree/main/split_files/vae. Как альтернативу стандартному  t5xxl_fp8 стоит рассмотреть gguf-версию Q4, которую можно взять здесь: https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main. Она и весит меньше, и видеопамять, соответственно, расходует меньше.

Также нам потребуются рабочие процессы. Большая часть из них уже вшита в интерфейс – достаточно перейти в меню Рабочие процессы -> Шаблоны -> Flux и выбрать нужный. Однако по какой-то причине там есть не все шаблоны. К примеру, для Canny я нашёл, а вот Depth представлена только в виде Lora, и качество у неё такое, что и рассматривать я бы не стал. Чаще всего workflow можно скачать на сайте разработчика ComfyUI: https://comfyanonymous.github.io/ComfyUI_examples/flux/. Они вшиты в изображения. Картинки достаточно сохранить и перетащить в рабочую область интерфейса. Но не всегда и не ко всем моделям есть «официальные» раб. Процессы, и тут уж Google в помощь.

Flux Tools

Теперь, когда мы всё выкачали, – разложим файлы по местам. Для начала закинем модели. Их нужно класть не в checkpoints, как мы делали прежде с обычными Flux-моделями, а в ComfyUI\ComfyUI\models\diffusion_models, дальше в папку ComfyUI\ComfyUI\models\clip кладём наши clip_l.safetensors и t5xxl_fp8_e4m3fn.safetensors (или gguf-версию), и, наконец, в папку ComfyUI\ComfyUI\models\vae кладём наш ae.safetensors.

После этого перезапускаем интерфейс (закрываем браузерную вкладку и консоль и снова открываем bat-файл) и прокликиваем ноды, выбирая именно ваши файлы моделей, энкодеров и vae.

С Depth-моделью ещё проще – скачали, закинули в ComfyUI\ComfyUI\models\diffusion_models, потом качаете рабочий процесс: https://education.civitai.com/wp-content/uploads/2024/08/Flux-Depth-Basic-Workflow.zip, распаковываете и перетаскиваете Flux Depth Basic Workflow.json в окно браузера с открытым веб-интерфейсом. Скорее всего, он предложит скачать кастомные ноды (Custom Nodes)- я выбрал установить все, для верности. После их установки интерфейс перезапустится. Также прокликиваем model, vae, clip-модели, чтобы убедиться, что выбраны существующие файлы (те, что вы скачали и разложили по папкам) и, вуаля, всё работает.

В принципе, если вам нужны Fill и Redux-модели, – установка такая же, проблемы, вероятно, возникнут с поиском рабочего процесса (я для полной модели Depth – два дня искал), а в остальном всё идентично.

Canny стоит использовать, когда нам важны контуры – как раз пример из начала статьи с портретом.  Depth – это карта глубины. Её мы используем в случае, если у нас многоплановая композиция. Допустим, на переднем плане стол с вазой, а на заднем — на диване дрыхнет котейка. И вот если вам нужно перекрасить котейку и заменить вазу на чайник – это как раз Depth.

Контролнет – это мощный инструмент, который будет полезен дизайнерам, архитекторам, блогерам, фотографам и многим другим. Он открывает поистине огромные возможности для творчества.

Фото: автор

Александр Меркушев

Специально для Агентства Особых Новостей (on24.media)

,

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *