Original size 1140x1600

Обучение генеративной нейросети пиксельному стилю

описание проекта

В этом проекте нейросеть Stable Diffusion была обучена создавать картинки в пиксельном стиле. В качестве датасета был собран набор из 20 пиксельных изображений с милыми героями. Далее приведены примеры исходных изображений:

итоговые изображения

Original size 1024x1024

комментарий

В серии результирующих изображений мы можем увидеть, что нейросеть обучилась создавать пиксельные картинки с милыми животными. Так как большинство исходных изображений были с белым фоном и в бежевых тонах (что обусловлено цветом шерсти самих животных), алгоритм перенял и эту особенность. Можно заметить, что в некоторых изображениях получилась абстракция с намеками на мордочки животных, а в одном случае у котенка получилось больше глаз, чем необходимо. Однако мы видим, что в трех случаях из пяти генерация прошла удачно и получились четкие и понятные образы.

код и описание процесса

https://disk.yandex.ru/d/-Z3ep-cemf624Q

ссылка на ноутбук с кодом

Для обучения нейросети сначала был собран и выгружен в kaggle датасет с пиксельными картинками. Затем с помощью команды нейросеть описывала, что видит на картинках (самым часто повторяющимся словом в описании картинок было «pixel»). Потом начался процесс обучения нейросети. Был написан промт. Основной запрос был сформулирован как «a photo Cell type», разрешение — 512, было установлено проверочное (250) и максимальное (500) количество шагов. Процесс обучения суммарно занял около восьми часов. Далее полученная система была загружена на аккаунт hugging face. Для получения картинок были написаны промты (например, «cat a photo in Cell style») и получены соответствующие результаты, которые можно увидеть выше.

*в проекте генИИ использован не был

описание применения генеративной модели

В данном проекте была использована нейросеть Stable Diffusion 2-1 для генерации изображений

https://stablediffusionweb.com/ru

Обучение генеративной нейросети пиксельному стилю

Yana Degtyareva

artificial intelligence