
Идея
До своих 20 лет я никогда не смотрела аниме и даже не интересовалась им, но потом что-то поменялось. Я открыла целый новый огромный мир, созданный тысячами художников и объединяющий миллионы людей. Оказывается стилей и направлений аниме, которые заинтересовали меня так много! Поэтому я решила обучить нейросеть UNet из модели Stable Diffusion генерировать милых аниме девочек в разных стилях: школьном, киберпанке, романтическом и магическом.

Коллаж из изображений, использованных для обучения. Взяты из открытых источников.
В рамках своего проекта я хотела представить, как могли бы выглядеть милые девочки в разных подстилях аниме.
Процесс
Сначала код собирает все картинки из указанной папки и подготавливает их для обучения. Каждое изображение получает текстовое описание «photo of sks anime girl». С помощью кода картинки обрезаются до размера 768×768 пикселей и преобразуются в цифровой формат, понятный нейросети.

Нейросеть обучается циклически, и я сделала так, чтобы этих циклов прогона информации (эпох) было 50. Нейросеть многократно анализирует одни и те же изображения, переводя картинки в сжатый цифровой вид, затем искусственно искажая добавлением случайного шума (как если бы изображение испортили), после чего нейросеть пытается восстановить исходную картинку, опираясь на текстовое описание, а система автоматически корректирует её параметры, чтобы улучшить качество восстановления.
Каждые 5 эпох нейросеть проверяет свои умения: она пробует создать новую картинку по запросу «1girl, sks anime girl, school uniform, detailed face» и сохраняет результат. Это позволяет контролировать качество обучения.


Первое и последнее из 10 тестовых изображений
В процессе обучения нейросеть сгенерировала 10 изображений с достаточно похожими друг на друга девочками с серыми волосами и светлыми глазами.

Я также добавила код, который бы сохранил все созданные изображения в зип-папку на моем компьютере.
Заключение
В промптах, используемых для генерации новых изображений, я постаралась сделать акцент на вариативности стилей, которые может воспроизвести нейросеть.


Финальные изображения. (Слева «Школьница, школьная форма, официальный стиль, детализированность.» Справа «Мягкий свет, расслабленность»)
Стили переданы достаточно точно за счет очень разных ракурсов, освещения, цветовой гаммы.


Финальные изображения. (Слева «Киберпанк, неоновый свет, футуристичный город на фоне.» Справа «Стиль РПГ, магическая аура»)
https://disk.yandex.ru/d/uOPLGoMEa-WdHw Все сгенерированные изображения