Как уже упоминалось в прошлых статьях, промт – это словесное описание того, что мы хотим получить от нейронной сети, текстовое описание изображения, которое она в итоге должна создать. Конечно, вы можете просто написать так, как видите, но результат вряд ли будет оправдывать ваши ожидания. Причина этого кроется в том, что нейросеть не обладает сознанием, она делает то, о чём её просят, следуя программной логике.
Если вы общаетесь с человеком-художником – он понимает, что конкретно он рисует, потому может добавить какие-то детали и распознать задумку, он поймёт, например, что «a cool mouse» — это «крутая мышка», нарисует её антропоморфной, в чёрных очках, с золотой цепью и растопыренными пальцами. А нейросеть анализирует слова: a – неопределённый артикль, cool – холодный, mouse – мышь, и нарисует вам замёрзшую мышь, скорее всего, синюю, поскольку синий со льдом и холодом ассоциируется (вспомните ручки крана в ванной). Она не поймёт, что вы используете другое значение слова “cool”, потому ей нужны более подробные описания. Попробуем так: «cool anthropomorphic mouse in black glasses and a leather jacket» — крутая антропоморфная мышь в черных очках и кожаной куртке. Вот теперь намного больше похоже на правду.
Здесь может появиться желание написать в промт как можно больше деталей, но важен разумный баланс. Повторюсь – у нейросети нет сознания, и она может нарисовать прекрасные какие-нибудь рюшечки, но не поймёт, где они должны быть, а пока рисует рюшечки, не успеет за отведённое количество шагов что-то другое нарисовать. Промт должен быть чётким и понятным.
Потому сообщество опытным путём и выделило некоторые правила написания промтов.
Прежде всего, промт не должен содержать отрицания, Stable diffusion его не понимает. Чтобы было понятнее – она читает по словам. Если вы пишите «a man without hat» — мужчина без шляпы, она будет делать мужчину и шляпу, и в большинстве случаев в конечном итоге вы получите мужчину в головном уборе либо со странной прической, напоминающей головной убор. Как же быть? Если есть объект, которого не должно быть на конечном изображении, то его стоит вписать в Negative prompt, нижнее поле, и тогда шляпа перестанет появляться.
Далее важно помнить, что каждый следующий токен (слово) влияет на предыдущие. То есть если в конце вашего промта вы укажите «аниме», то изображение будет создано именно в этом стиле рисовки.
Обычно для построения текстового описания используется следующая формула: ОБЪЕКТ – ДЕЙСТВИЕ – СТИЛЬ И КЛЮЧЕВЫЕ СЛОВА. Объект – это главный персонаж изображение – это может быть человек, кот, стол, волшебный замок – то, собственно, ради чего вы генерируете изображения. Действие – то, что делает объект, – сидит, стоит, держит что-то в руках, играет с чем-то (как наши любимые котики). Стиль и ключевые слова – мы уточняем, в какой стилистике мы хотим получить изображение и какого вида.
Для примера создадим изображение девочки, которая сидит на диване и держит в руке яблоко. Наш промт: a girl holds small apple in hand, sitting on sofa (девочка держит маленькое яблоко в руке, сидит на диване). А теперь добавим в конце cartoon (мультфильм) и получим уже девочку с яблоком в стилистике мультика. Pixar – задаст стилистику мультфильмов соответствующей студии, а указав «van gogh» — мы увидим, как наша фотография превратится в картину Ван Гога, это работает и с другими художниками. К примеру, был бум на иллюстрации в стиле Грега Рутковски, художника компьютерных игр. Добавление его имени позволяло создавать шедевральные фентезийные картины. Позже он потребовал удалить токены своей фамилии из нейросети. Говорят, слишком часто путали его работы с произведениями SD. Перечислить все возможные стили и ключевые слова нереально – их тысячи, если не десятки тысяч, но вот вам списочек наиболее часто используемых мной:
dramatic light – драматическое освещение, vignette – виньетка, vibrant colors — насыщенные цвета, sharp focus — резкий фокус, professional photo и professional studio photo для студийных фотографий, abstraction – для создания абстрактных картин (не работает с подробными промтами), realistic HD photography и ultrarealistic – выдаёт неплохие рендеры, surreal – для сюрреалистичных картин, anthropomorphic – позволяет создавать антропоморфных животных. Closeup – приблизит камеру, а fullbody или full length — попросит нейросеть не обрезать тело на картинке. Comic style – превратит промт в иллюстрацию в стиле комиксов, а pencil или sketch — сделает из изображение карандашный рисунок, low angle – даст сьемку снизу вверх. Вариантов масса, стили можно комбинировать между собой, можно сделать комнату одним стилем, к примеру cyberpunk room (в стилистике киберпанка), а персонажа – другим, natural (натуральный).
Пробуйте, экспериментируйте, создавайте!
Фото: автор
Специально для Агентства Особых Новостей (on24.media)