
Описание идеи
Целью моего проекта являлись обучение нейросети Stable Diffusion на основе стиля «юго-восточного короля скрапбукинга» — Дерека Гореса, — а также создание серии изображений в этом стиле.
Мне очень симпатичны коллажные работы Гореса и, кроме того, большинство из них, по удачному совпадению, имеют пропорции квадрата, так что мне даже не пришлось их кадрировать.
Датасет

Я собрала датасет из 104 работ Дерека Гореса, взятых с его сайта. У художника имеются коллажи с повторяющимися мотивами, в которых можно заметить даже идентичные (в плане построения) композиции, различающиеся по цветовой гамме и некоторым второстепенным элементам.
Генерации
Обучение проходило в Kaggle в соответствии с алгоритмом, представленным в курсе: 1. Установка необходимых библиотек; 2. Загрузка скрипта с GitHub для обучения модели; 3. Импорт датасета из 104 изображений; 4. Проверка содержимого датасета; 5. Генерация и сохранение подписей к картинкам при помощи BLIP; 6. Очистка памяти; 7. Подготовка к записи модели на Hugging Face; 8. Загрузка новой библиотеки datasets; 9. Определение параметров в обучении (1000 шагов, чекпоинт 250, размерность изображения 1024); 10. Запуск процесса обучения; 11. Сохранение модели на Hugging Face.
Процесс занял чуть больше пяти часов.
photo collage in GORES style, a girl, lying in a pool on the water подход № 1
После обучения я попробовала поработать с разными чекпоинтами модели и пришла к выводу, что итоговый — самый оптимальный. В сгенерированных коллажах замечены следующие особенности стиля Дерека Гореса: обращение к «хаосу» коллажа, из которого вырисовываются фигуры и их окружение, активная работа разномасштабной типографики в композициях, использование разнообразных текстур, акценты на границах и стыках кусочков бумаги, общая яркость и пёстрость, внимание к цвету и свету.
А главное, модель натренировалась на создание образа красивой женщины — именно он является преобладающим в творчестве Дерека Гореса.
photo collage in GORES style, a blonde girl with black glasses and a hat подход № 1
Одну часть изображений я сгенерировала сразу после обучения модели в том же ноутбуке, другую — уже через некоторое время, загрузив модель с Hugging Face. Во второй раз пришлось поменять некоторые вводные генерации для стабильной работы, поэтому эти изображения отличаются по глубине проработки: как мне показалось, результаты при повторном обращении к модели вышли не такими детализированными и более «рисованными».
photo collage in GORES style, woman at night подход № 2
photo collage in GORES style, Times Square, New York подход № 1
несколько ячеек кода обучения модели
photo collage in GORES style, night club, city nightlife, energetic composition подход № 1
Я пробовала работать с разными типами промптов и просила нейросеть сгенерировать как свойственные автору объекты и фигуры, так и что-то постороннее или редкое в плане частоты появления в исходном датасете (например, пейзажи).
слева: photo collage in GORES style, lights on the street at night справа: photo collage in GORES style, lanterns on the street at night подход № 1
photo collage in GORES style, lights on the street at night подход № 2
photo collage in GORES style, a night on the streets of New York подход № 2
photo collage in GORES style, ancient library подход № 2
Некоторые запросы вызывали у нейросети трудности. Если в промптах присутствовали объекты или места, примеров которых не было в подборке работ художника, нейросеть обращалась к повторяющемуся авторскому образу женщины и добавляла некоторые характерные для запрашиваемого слова детали. Например, иллюстрируя Рождество, ИИ успешно определился с красно-зёлёной гаммой и использовал нужные предметы — праздничную ёлку и подарки.
В таких случаях приходилось много раз прибегать к одному и тому же промпту, чтобы получилось 2–3 неплохих результата.
photo collage in GORES style, Сhristmas подход № 2
photo collage in GORES style, Moscow, Red Square подход № 2
А вот Красная площадь вышла у нейросети совсем уж неубедительно. Сначала она нарисовала почему-то красную туфлю с Эйфелевой башней (туфли в коллажах Гореса действительно были), а потом вернулась к изображению женщин. Иногда в генерациях появлялись кривые бордовые башни, но они начинали жить вне стиля и имели мало общего с настоящей архитектурой Красной площади. В общем, единственное, что ИИ уловил в данном случае — цвет.
photo collage in GORES style, black cat with a small ball подход № 2
photo collage in GORES style, a black butterfly подход № 2
В процессе работы с промптами для меня стало загадкой избегание ИИ процесса генерации образа бабочки. Несмотря на то, что у Дерека Гореса в работах имелся не один коллаж с крупным изображением бабочки в центре композиции, я чего-то похожего добиться не смогла. Просьбы сгенерировать её приводили к картинам, на которых бабочки в лучшем случае порхали вокруг женщин, а в худшем — «распадались» на части (от них оставались крылья и красочные паттерны).
У меня есть предположение, что из-за «коллажности» исходных работ модель не идентифицировала образ бабочки целиком, а разобрала его на составляющие.
photo collage in GORES style, a black butterfly подход № 1
photo collage in GORES style, winter forest, nature, birds подход № 1
Нейросеть старалась даже добавлять подписи автора в правый нижний угол, но чаще всего надпись выходила неточной: в ней задваивались, терялись или менялись буквы, трансформировался «почерк», слово плыло и переставало читаться. Иногда подпись не появлялась вообще. Однако была и пара удачных попыток — например, следующая картинка.
photo collage in GORES style, winter forest, nature, birds подход № 1
hoto collage in GORES style, flowers подход № 2
Также могу отметить несколько артефактов, которые появлялись на изображениях: явные нарушения строения человеческого тела, сложности с мелкими лицами на фоне, безосновательная смазанность некоторых фрагментов в композициях (особенно в местах, где нейросеть была «не уверена»).
hoto collage in GORES style, flowers подход № 2
photo collage in GORES style, bouquet of flowers подход № 1
photo collage in GORES style, the statue of David in black подход № 1
photo collage in GORES style, a cup of coffee подход № 2
photo collage in GORES style, a cup of coffee подход № 2
photo collage in GORES style, a bottle of wine подход № 2
photo collage in GORES style, collage with elements of space objects (planets, stars) and terrestrial landscapes подход № 1
photo collage in GORES style, city intersection, traffic light, cars подход № 1
загрузка модели с Hugging Face
photo collage in GORES style, the village in winter подход № 2
photo collage in GORES style, snow-capped mountains, landscape подход № 1
На некоторых генерациях я замечала что-то вроде намеренного ухудшения качества отдельных фрагментов, будто нейросеть «составляла коллажи» из фотографий и иллюстраций разного разрешения.
photo collage in GORES style, a bird with bright plumage подход № 2
photo collage in GORES style, Paris, Eiffel Tower подход № 2
photo collage in GORES style, woman at night подход № 2
photo collage in GORES style, a sensitive woman подход № 2
photo collage in GORES style, woman at night подход № 2
Итак, я могу сказать, что осталась довольной результатом обучения. Модель переняла важные особенности творчества автора и начала генерировать новые изображения, опираясь на ключевые стилеобразующие точки.
Конечно, генерации получаются удачнее при максимальных настройках, но мне, к сожалению, не хватило мощности и памяти для непрерывной работы с моделью. Не всегда удаётся добиться нужной картинки с первого раза, чаще всего для вывода двух-трёх хороших изображений приходится обращаться к одному и тому же промпту около десяти раз, то есть примерно каждый четвёртый результат оправдывает ожидания.
Описание применения генеративной модели:
GPT-4o, Midjourney, Flux in Telegram Bot (@chatsgpts_bot) — для уточнения деталей кода и исправления ошибок; Программа Topaz Gigapixel AI — для увеличения разрешения полученных изображений.