Опыт использования Midjourney в работе фотографа

Публичный пост

14 июля 2023 1540

ДИСКЛЕЙМЕР: данный текст написан рядовым пользователем Midjourney, который пока его только изучает и пытается прикинуть как на этом вообще можно заработать. Всё, что будет написано ниже, - только личный опыт и изыскания, без претензии на разбор технической составляющей.

ИИ все больше и больше входит в нашу жизнь. Не в последнюю очередь в визуальное искусство. Уже выходит огромное количество презентаций и статей о том, что использование искусственного интеллекта повышает производительность труда и в среднем «экономит 2.5 часа на второстепенные задачи каждый день», которые, например, «маркетологи могут потратить на по-настоящему человеческие задачи, такие как стратегия и планирование, творческая работа», согласно отчету HubSpot по ИИ за 2023 год [HubSpot AI Marketing Report 2023].

Также 22% маркетологов в этом исследовании отмечает, что ИИ помогает им находить идеи и вдохновение. «As we all know, generative AI can’t replace the skills of a professional writer. But it can create a helpful starting point that saves writers hours, letting them create more content, faster». [HubSpot AI Marketing Report 2023, 13 стр]

С чем я могу точно согласится - это то, что использование MJ не может заменить вам проведение полноценной фотосессии, но может стать помощником в процессе предпродакшена и подкинуть ряд идей, которые фотограф сможет осуществить на площадке в реальности.

Начало работы с Midjourney

MJ общается с помощью команд и текстового описания - prompt.

Prompt состоит из 3 блоков: [описание картины происходящего] + [технические характеристики] + [параметры]

[описание картины происходящего] - что, собственно происходит по сюжету
[технические характеристики] - пленка, камера, объективы, или by Richard Avedon, by Salvador Dali и т.п.
[параметры] - прописываются через «--», например, «--ar 3:2» - это соотношение сторон. В MJ есть куча других параметров, но их все можно посмотреть в интернете, поэтому нет смысла описывать их все тут.

При этом в prompt-е имеет значение как близко к его началу стоит слово. Приоритетными считаются первые, и чем дальше к концу, тем меньше они влияют на картинку.

Вообще вся суть работы с MJ состоит в том, чтобы научиться разговаривать на ее языке. От нее сложно добиться хорошей картинки, если ввести только «Models in the room with the glasses of Martini in their hands». Руку могу дать на отсечение, что это будет далеко от того, что вы ожидаете.

Значит, запрос необходимо уточнять. Желательно в подробностях видеть картину в своей голове - мизансцена, сеттинг, герои. Кто эти герои, мужчина и/или женщина, сколько их. Во что они одеты, держат ли что-то в руках - сумки ли, зонты.

spoiler: до бесконечности картинку лучше не уточнять, MJ начнет делать месиво, но это мы увидим позже.

Результат по запросу prompt: «Models in the room with the glasses of Martini in their hands».

Без уточнения MJ делает столько людей, сколько ему нужно, тех полов, которые ему нравятся, в той эстетике, что он предпочитает. И с тем количеством алкоголя, которое ему кажется социально приемлемым (особенно, почему-то женщин он склоняет к пьянству). Стоят ли они просто перед зрителем или чем-то занимаются, взаимодействуют друг с другом или нет - выбирает сам, если не прописать.

Отдельно стоит упомянуть, что по умолчанию MJ генерит картинку в фас, крупным портретом или первым/вторым средним планом. Чтобы добиться от MJ общего плана или дальнего, необходимо учитывать и прописывать это специально. Также надо учесть что, если вы хотите, чтобы модель была повернута в профиль или анфас, сам MJ вам в голову не залезет, значит, надо ему об этом сказать.

Ну и задача под звездочкой - «заставить» моделей на вашей картинке выполнять какие-то действия. MJ необходимо точно указать, что вы от них хотите - прыгать, бегать, играть в теннис, летать в скафандре и т.п.

MJ всегда делает 4 картинки на выбор. Чем более прописанный prompt вы вводите, тем больше картинки будут похожи друг на друга, отличаясь только цветом, ракурсом и позировкой. Также есть параметр «- -seed», который, если его специально указывать, позволяет генерить одинаковые по композиции картинки, даже если у вас разнится prompt. Сиды ограничены значениями от 0 до 4294967295. Если использовать одинаковый сид, изображения будут получаться «одинаковыми».

Для примера возьмем SEED: 2861138008 и два разных prompt-а. Посмотрим, как MJ будет стараться сохранить композицию и расположение предметов в кадре. Например:

Добавляем в prompt слова USSR, communism и Moscow. Композиция и расположение людей в кадре остаются примерно такими же:

Если вы введете только одно слово, система даст, скорее всего,
разноплановые картинки из разных стилей, эпох и т.п. Например: 3д-визуализация, анимэ, нарисованная картинка и графика.

Особо продвинутые товарищи уже даже создали курсы и целые сайты-руководства по написанию prompt-ов.

На каждую картинку MJ можно попросить сделать:
U (upscale) - выгрузить в более высоком качестве;
V (variant) - новые четыре варианта предыдущей картинки.

В MJ художник работает через команды (ниже три самых
распространенных):
/imagine - собственно то, как MJ представляет себе вашу идею;
/describe - загружаем свою картинку в MJ и она описывает prompt на своем языке, который мы впоследствии можем использовать;
/blend - «сращивание» от 1 до 4 фотографий вместе (дико полезно, когда необходимо «вдохновиться», скажем, чужим стилем съемки, письма или как, например, ложатся мазки у художника, но при этом сохранить свою корневую идею).

Самая главная команда - /imagine - выглядит вот так:

Пример генерации под задачу

Идея: кампейн, 60е, дисковой телефон. Цвета: розовый - золотой - голубой. Две модели, середина жаркого лета, закатное солнце, ретро-вентилятор, сидят с бокалами алкоголя. В комнате в полный рост.
Задача: сгенерить картинку, чтобы было ощущение, что это фотография, сделанная в ту эпоху.

1 итерация

Прописываем prompt «as is» без добавления чего бы то ни
было.

Получаем:

Красиво, конечно, но не фотография. Хотя, в качестве самостоятельной работы можно уже и оставить, если вам нужна иллюстрация. Ну, и видно, что MJ «накосячил» много где, причем еще взял и добавил от себя футуризма, хотя я не просила.

2 итерация. Стилизация

Добавляем параметр —s 750. Что такое параметр S - стилизация? Сам MJ считает, что он отвечает за художественность изображений. Что под этим имеется ввиду, сказать сложно. Из моего опыта и по моему мнению, нейросетка добавляет изображению глубину, отчасти реалистичность и больше заморачивается с проработкой фона и композиции. Параметры бывают от --s 50 до --s 750.

У меня есть знакомый художник, который считает, что лучше всего генерить картинки на среднем значении - так сетка, якобы, дает большую вариативность результата и вообще не ограничивает себя. Лично я люблю максимальное значение: мне кажется, что композиция становится более проработанной.

Получаем:

3 итерация. Фотореализм

Конечно, есть вариант написать prompt-е что-то типа «ultrarealistic, like photo, 4k» и всякое такое, но вероятность получить отличный от второй итерации результат весьма мал. Как по мне, то лучше прописывать предметно, например:
Professional DSLR camera
Hasselblad (если вы побогаче)

Моя любимая формула:
Sigma film 35mm f/8 focal length 85mm

Получаем:

К сожалению, и здесь MJ нафакапил, но зато наши «фотографии» стали еще больше похожи на фотографии.

4 итерация. Что, если бы это снял Хельмут Ньютон?

Добавляем к prompt-у "by Helmut Newton" или "stylized Helmut Newton" и смотрим, что выходит.

Получаем:

Что интересно: на двух «фотографиях» он добавил и самого Хельмута Ньютона, но это легко исправляется уточнением prompt-a, типа «two girls».

В этой итерации я сразу добавила параметр «соотношение сторон»: --ar 3:2. И теперь у нас не стандартный инстаграмный квадратик 1:1, а вполне себе фешн-разворот.

5 итерация. Обманываем систему

Для этого есть три варианта:

Ссылка + prompt;
Через команду /blend скрещиваем два фото: одно наше, одно оригинальное;
Прогоняем оригинальное фото через команду /describe и добавляем всё, что нам понравилось через prompt.

1. Ссылка + prompt. Берем оригинальное фото Хельмута Ньютона в похожей стилистике, например, знаменитое фото с Грейс Коддингтон:

И через любой сервис по получению ссылок для фото генерим ссылку и заряжаем ее в MJ. Я обычно использую https://postimages.org.

Далее прописываем: ссылка + наш prompt. Со ссылками надо работать с командой «- -iw 1.0» (Image Weight). Значения бывают в диапазоне от 0 до 2. Чем меньше значение, тем меньше влияние ссылки; чем больше значение, тем больше влияние ссылки. По умолчанию стоит значение 0.25.

Получаем:

Мы получаем все более и более реалистичное изображение. При этом откуда-то появляется "Карл Лагерфельд", но исчезают телефон и вентилятор.

2. Через команду /blend скрещиваем два фото: одно наше, одно оригинальное. Тут все просто: вызываем команду /blend и в открывшиеся окошки загружаем две фотографии. Смотрим, что выходит.

Имейте ввиду, что MJ может подгрузить информацию с любой из
картинок. Допустим, вы генерили двух персонажей, но на картинке, с которой вы пытаетесь содрать стилизацию, один. И тогда
вполне вероятна ситуация, когда на двух картинках будет по одному
персонажу, а на двух - по два.

Также через эту команду мы всегда получаем изображение 1:1. Меняется ли результат при попытке поменять картинки местами, не понятно. Я существенной разницы не наблюдала.

Результат скрещивания:

На некоторых картинках людей стало существенно больше. Само изображение стало больше напоминать фотографию. ИМХО: очень удобно использовать для смешивания своей сгенеренной идеи со стилем какого-либо художника.

3. Прогоняем оригинальное фото через команду /describe и добавляем все, что нам понравилось через prompt.

Ещё надо сделать так, чтобы задачи, которые вы уже поставили, и
дополнения из describe не конфликтовали друг с другом. Можно
отказаться от части предыдущего prompt-а, и заместить куски новым из describe.

Я убрала винтажный телефон - всё равно он его не рисует.
Добавила: «in the style of decadent style, postmodern collage, raw materialism, post-'70s ego generation, dark turquoise and crimson, depictions of aristocracy».

Получаем:

В итоге мой prompt стал до неприличия раздут. Ошибки в нем есть до сих пор, но не во всех версиях. Получается, что наша задача - выбрать и заапскейлить ровно ту работу, которая лучше всего отражает задумку.

Было - Стало:

Посчитаем время. От первой картинки до создания трёх последних у меня ушло около полутора часов и два бокала рислинга, включая: поиск и выбор референсов, различные уточнения к prompt-у и генерацию выбранных мной вариантов.

Некоторые выводы

Чтобы сделать «фотографию», лучше всего прописывать в propmt-е буквально: Sigma, 35mm, film, f/8, polaroid, grain. И другие подобные термины;
Ссылка лучше, чем /blend или /describe, поможет добиться эффекта реалистичности изображения;
Чем более сложный prompt - тем больше MJ чудит. Здесь, как и везде, нужен баланс - и корневую идею оставить, и бантики-фантики всякие накрутить;
В пользовании MJ нужна постоянная практика. Если по началу ты пишешь на красивом литературном языке, буквально, как Лев Толстой описывает небо над Аустерлицем, то со временем учишься вводить отрывистые фразы, потому что нейросеть понимает всё буквально.

Как решить проблему «трёх ног»?

Самое очевидное - генерить до умопомрачения: когда-нибудь MJ да и сделает правильную, нужную вам картинку;
Использовать «минус-слово» - параметр, который вводится командой «-- no любые слова», например, «-- no three legs». Но здесь велика вероятность, что MJ воспримет эту команду, как вообще отсутствие ног, и обрежет человека по бедра. То же самое с вариантом «-- no three people», лучше заменить просто на «two models», иначе он может сделать «no people at all» (вообще без людей).

На наше счастье в версии 5.2. MJ всё меньше и меньше рисует 3 ноги и 6 пальцев.

Как писать запросы интереснее?

Есть куча сайтов, где люди делятся propmpt-ами. Есть даже
платные. Сам MJ сохраняет все картинки у себя, и вы всегда можете подсмотреть, кто какой prompt использовал, найти для себя идеал, стырить весь prompt или его часть.

Источники:
https://prompthero.com
https://www.midjourney.com/app/feed/

Примеры полезных для фотографа запросов

Captured by Sony Alpha a7 III camera with Sony FE24-105mm f/4 G OSS lens
Captured on Mama 7 f/4 65mm Cinestill 800T
Canon EF 50mm f/1.2L USM lens on a Canon EOS 5D Mark IV

Eye level - на уровне глаз
Low angle - съемка снизу
High angle - съемка сверху
Side angle - в профиль
Bird’s eye view - с высоты птичьего полета/квадрокоптер

Close-up - первый средний план
Extreme close-up - крупный план
(MJ иногда может их путать, так что надо тестить)
Medium body shot - второй средний план
Full-body shot - ростовой кадр

Sunny - солнечный свет
Rainy - дождливая погода
Snowy - снежная погода

Silhouette lightning with Side light - контровой свет, рисующий сбоку
Backlightning - контровой свет
Red colored side lightning - рисующий сбоку с красным фильтром

Cold - холодная цветовая температура
Warm - теплая цветовая температура

High key - высокий ключ
Low key - низкий ключ

Extreme close-up, red colored, side lightning

Как фотографы могут использовать MJ в своей деятельности

Самое очевидное - делать предпродакшен. Вместо поиска того самого идеального референса можно сгенерить его себе самому;
Вдохновляться. Очевидно, что в голове художника есть идея, но при диалоге с MJ есть возможность, даже путем случайного перебора prompt-ов, найти для себя новые визуальные решения. Условно, использовать MJ не как продолжение своей руки, а как невидимого собеседника, с которым можно устроить мозговой штурм;
Создавать несуществующие миры - генерить себе фоны, монтировать со своими собственными фотографиями/иллюстрациями. Но для этого нужны сторонние ресурсы, типа Firefly от Adobe, или поставленная рука, если вы хотите «врисовать» недостающий элемент в сгенерённую картинку.

Кто в итоге автор?

Честно говоря, я так и не решила для себя один морально-этический вопрос, а именно: кто всё-таки является художником - я или MJ. С одной стороны, идея - моя. Мой опыт, знания, психологические травмы художника, в конце концов, дают начало этой деятельности. Без моего волевого усилия и желания MJ не начнет творить.

С другой сторны, MJ делает за меня всю предпродакшен работу - рефы, отрисовка, раскадровка, скетчи. Мне остается лишь выбрать тот вариант, который наиболее близок к моей первоначальной идее.

С третьей стороны, а не занимаемся ли мы тем же самым, когда делаем мудборды перед съемками или созданием коллекций? Мы вдохновляемся чем-то, что уже было создано до нас - сшито, отрисовано, снято. Получается, мы перерабатываем опыт других людей при создании чего-то нового своего.

Единственное, что я точно понимаю: чтобы эффективно пользоваться функционалом MJ, хорошо бы знать историю искусств. В противном случае может получится, как с цифровой камерой, используемой в режиме «Аuto»: умение нажимать на кнопку не равно умению сделать снимок. Также и здесь - умение писать по-английски не равно умению генерить художественный объект.

4 комментария 👇

Алеша Баженов , Основатель 15 июля 2023

крутой обзор, Лера, спасибо!
скажи, а могут быть менее "глянцевые" лица? тут как будто отретушировано

Развернуть 1 комментарий

Валерия Крылова 15 июля 2023 автор

@abajenov, спасибо) я встречала у некоторых авторов, что можно добавлять морщины (wrinkles), но даже их он делает вылизанными и гламурными)
надо посерчить ))

ответить

Алеша Баженов 15 июля 2023

@valerykrylova, как будто бы только эта "ретушь" выдает искусственность картинки.
а сколько времени всего надо затратить, чтобы получить такой результат, если уже есть опыт?

@abajenov, честно, пока нет. Надо попробовать.
Кстати, пока размышляла над твоим комментарием, пересмотрела свои картинки, поняла, что Миджорни НЕ делает симметричные лица. Еще и поэтому модели считываются как настоящие.
Я подумаю потом как можно добавить реалистичности)