Original size 2480x3500

До-обучение генеративной нейросети Stable Diffusion

Стилистика

Для до-обучения генеративной нейросети Stable Diffusion я использовала картины Кристоффера Зеттерстранда. Передо мной стояла цель обучить модель его живописной стилистике.

Original size 1920x1904

Dante And The Three Beasts, 2007

О художнике

Кристоффер Зеттерстранд, художник-сюрреалист из Швеции, получивший большую славу из-за внедрения его картин в видеоигру Minecraft. В своих работах он создает сюжеты, которые несут в себе выдумку и реальность. Он включает большое количество цифровых и сценографических элементов.

Датасет

Часть из работ пришлось обрезать, так как они не отвечали формату 1:1. Все картинки были подогнаны под размер 1800 × 1800 px.

Процесс до-обучения

Для до-обучения я использовала готовый ноутбук. Его я импортировала в Kaggle и включила акселератор GPU P100. Я шла по шагам, которые были предложены, отходя от них, только в случае крайней необходимости.

Я создала датасет на Kaggle и подгрузила картинки из него в уже существующую папку.

Original size 1314x148

Я подготовила датасет к до-обучению, создала промты к каждой из картинок датасета и зашла в аккаунт Hugging Face используя токен.

Некоторые из промтов к картинкам из датасета:

{"file_name»: «49.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a woman playing a guitar"} {"file_name»: «47.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a man kneeling on a rock"} {"file_name»: «96.jpg», «prompt»: «drawing with digital and comic elements in Zetterstrand style, a painting of a person with a backpack"}

Дальше я запустила до-обучение модели, установив число шагов на 800. На всякий случай чекпоинты у меня стояли на каждых 100 шагах, чтобы вернуться в случае переобучения.

Original size 1316x881

Original size 1285x181

После окончания до-обучения я загрузила готовую модель на Hugging Face.

Финальным шагом я очистила кэш ноутбука и подгрузила готовые веса модели.

Original size 1288x391

Проблемы модели

Original size 1201x1097

Так как я пыталась создать это модель несколько раз, я пришла к выводу, что у нее есть общая проблема.

Модель даже после обучения не смогла в полной мере создавать картинки, которые повторяют стиль художника. Хотя в картинах присутствует размытость мира, которая свойственна художнику, и общая живописность, диффузионная модель показывает ошибки с цветами. Чаще всего именно сочетание двух стилистик, цифровой и живописной, ей не по силам. Она отдает предпочтение одной из них.

Также диффузионной модели не удается создавать картинки с большим количеством мелких деталей. Зачастую присутствуют следы переобучения, заключающиеся в том, что картинки получаются в одном цвете.

Сгенерированная серия

Original size 3500x2550

В своей серии я вижу идею проникновения реальной жизни в сон. Сломы реальности, размытые лица — это все напоминает состояние человека, когда он фантазирует или спит. Реальность проникает в это уязвимое состояния, делая его тревожным, а порой и опасным.

Описание применения генеративной модели

Для изображений применялся Stable Diffusion, который был до-обучен для генерации изображений в стилистике Зеттерстранга. До-обученная модель была загружена на Hugging Face. Для обучения использовался Kaggle.

Ноутбук с кодом

Модель на Hugging face

До-обучение генеративной нейросети Stable Diffusion

Xenia "Sova" Zinoveva

artificial intelligence

neural network

visual series