Original size 1140x1600

Heart of the Metropolis — обучение генеративной модели

PROTECT STATUS: not protected

Идея

Arcane — это анимационный сериал, основанный на вселенной League of Legends. Его главной особенностью является уникальный стиль — несмотря на то, что проект выполнен в 3D, текстуры нарисованы под 2D вручную с использованием в основном диффузной цветовой карты и ручной проработкой света и теней.

Каждая деталь в нём словно написана кистью, мазки остаются видимыми, создавая текстурность и ощущение традиционной живописи. При этом линии контурные, чёткие, но не жёсткие, а пластичные, что придаёт персонажам выразительность и энергию.

big
Original size 1280x660

Arcane: League of Legends, 2021-2024

big
Original size 3880x1078

Arcane: League of Legends, 2021-2024

Другой ключевой особенностью стиля является драматичное освещение. Световые акценты и тени создают глубину и подчёркивают эмоции. Цветовая палитра насыщенная, контрастная, с множеством неоновых и сияющих элементов, которые усиливают ощущение магии и технологичности.

Эстетика Arcane сочетает в себе брутальность и элегантность: грубые, индустриальные текстуры, металл и грязь соседствуют с утончённой архитектурой, плавными тканями и декоративными элементами.

big
Original size 1522x570

Arcane: League of Legends, 2021-2024

Такой стиль идеально подходит для тёмных фэнтези-миров, киберпанка и эпических историй с глубокой проработкой персонажей.

Original size 3556x1080

Arcane: League of Legends, 2021-2024

Original size 2400x1021

Arcane: League of Legends, 2021-2024

Цель проекта — до-обучить нейросеть Stable Diffusion и создать серию иллюстраций, вдохновлённых эстетикой сериала Arcane, но с уникальными сюжетами и персонажами.

Серия сгенерированных изображений

В рамках проекта была создана серия персонажей и разработан небольшой сюжет в уникальном мире, где переплетаются элементы стимпанка и магии.

Original size 3152x1024

Город, который никогда не спит, живёт благодаря древнему механизму в его центре — Сердцу города. Однако сбой в его работе ставит под угрозу существование всего мегаполиса. В сюжете фигурируют ключевые персонажи, каждый из которых играет важную роль в попытке понять и остановить разрушение города, включая инженера Ривера, старого архитектора Элиаса, беглую механическую куклу Лину и кошку Искру, которым предстоит противостоять главе Советов, скрывающему правду о городе.

Original size 2048x938
Original size 2088x1024
Original size 3152x1024

Ривер — инженер, чувствующий город.

С детства он умел «слышать» механизмы — не просто ремонтировать, а понимать их, будто они разговаривают с ним. Когда Ривер был ещё мальчишкой, живя в трущобах нижних уровней мегаполиса, его жизнь могла бы закончиться трагически. Но однажды его заметил старый архитектор на пенсии, который когда-то был одним из самых влиятельных мастеров города. Архитектор, узнав о необычном таланте Ривера, не просто предложил ему крышу над головой, но и стал его наставником.

Original size 3152x1026

Элиас Гримм — добрый старый архитектор на пенсии.

Когда-то он был одним из величайших инженеров города. После долгих лет работы на благо мегаполиса, он отошёл от дел и живёт в уединении, скрываясь от шума и политики Совета. Несмотря на свою старость, Элиас остаётся мудрым и проницательным, обладая глубокими знаниями о механизмах города и его магическом сердце. Его сердце не остыло, и он продолжает помогать тем, кто в этом нуждается. Элиас приютил Ривера, увидев в нём не только талант, но и душу, способную чувствовать и понимать город, как он сам когда-то.

Original size 3152x1024

Лина — беглая механическая кукла с собственной волей.

Созданная как декоративное существо для развлечения богачей, Лина не должна была иметь мыслей или чувств. Но однажды она «проснулась». В её памяти вспышками мелькают роскошь, страх, побег. Она нежна, внимательна, но её взгляд тревожит: он слишком живой. В её теле — шестерёнки и древняя магия, а в сердце — стремление обрести настоящее «я».

Original size 2048x1105
Original size 2088x1024

Искра — полу-механическая кошка, спутница инженера.

Когда-то уличная кошка, повреждённая в уличных боях и спасённая Ривером. Он принес её наставнику и заменил ей часть тела: одна лапа теперь из латуни. Искра часто помогает старому архитектору с проектами и иногда кажется, что она знает больше, чем сам Ривер.

Original size 2088x1024
Original size 2048x950

Верховный архитектор Маркалл — страж тайн города.

Маркалл — величественный, мрачный и почти мифический лидер Совета Архитекторов. Он не просто управляет городом — он его переписывает, как живой код. Его лицо редко видят — обычно он прячется за маской или проецируется в виде голограммы. Он — воплощение идеи: порядок любой ценой.

Original size 3152x1024

Процесс создания

Для до-обучения нейросети мне понадобилось 50 скриншотов из сериала с разрешением 1024*1024. Я старалась выбирать разных героев, ракурсы, а также включила в подборку несколько пейзажей.

Original size 1863x674

Фрагмент кода в Google Colab

Original size 1863x832

Фрагмент кода в Google Colab

Первым делом нужно было подключить необходимые для работы библиотеки и скачать скрипт из официального репозитория Hugging Face. После отобранные для обучения изображения загружаются в проект и выводятся на экран для проверки.

Original size 1863x468

Фрагмент кода в Google Colab

Затем для генерации описаний изображений загружается модель BLIP (Bootstrapping Language-Image Pretraining). Она будет использоваться для создания промптов, описывающих изображения.

Original size 1863x655

Фрагмент кода в Google Colab

Для каждого изображения из папки arcane_shots генерируется описание, которое начинается с префикса «art in arcane style». Эти описания сохраняются в файл metadata.jsonl, который будет использоваться для дальнейшего обучения модели.

Original size 1863x446

Фрагмент кода в Google Colab

Затем происходит небольшая очистка память, импорт новых инструментов и библиотек для работы с Hugging Face.

Original size 1863x616

Фрагмент кода в Google Colab

Происходит установка библиотек для работы с датасетами, затем — запускается DreamBooth LoRA-обучение. На 600 шагов с чекпоинтами каждые 200 ушел приблизительно час.

Original size 1863x757

Фрагмент кода в Google Colab

Original size 1874x593

Фрагмент кода в Google Colab

После обучения модель была загружена на Hugging Face, что позволяет обращаться к ней в дальнейшем.

Original size 3152x3152

В ходе работы были сгенерированы портреты людей и животных, полноценные сюжеты, а также пейзажи. Некоторые генерации требовали большее количество итераций для создания более точных изображений, например, сцены с несколькими героями.

0

Стоит отметить, что на некоторых изображениях нейросети удалось воспроизвести даже фокусное расстояние, сделав фон размытым.

Original size 3152x1024
Original size 2088x1024

Вывод

Всего было сгенерировано более 60 изображений. В целом, нейросети удалось успешно повторить заданный стиль. Наилучшие результаты были получены при генерации изображений людей. С понятием животных возникли проблемы — нейросеть выдавала антропоморфных существ вместо обычных четвероногих.

Original size 3152x612

Что касается пейзажей, результат в целом выглядит приемлемо по стилю, но качество детализации оставляет желать лучшего. Я думаю, что это связано с тем, что референсные изображения, на которых обучалась нейросеть, содержали слишком много элементов и насыщены мелкими деталями, что привело к путанице и некоторым потерям в точности.

Код

Исходный код лежит на Яндекс Диске: https://disk.yandex.ru/d/eNqSa5SxZodqHA

Описание применения генеративной модели

Stable Diffusion XL — до-обучена и использована для генерации изображений в стиле Arcane.

BLIP — использован для обучения модели с текстовыми описаниями.

Upscayl — улучшено качество изображений путём повышения разрешения и детализации.

GPT-4o — помощь с концепцией, написание промптов для генерации.

Heart of the Metropolis — обучение генеративной модели