Original size 1140x1486

Обучение генеративной нейросети под стиль Йодзи Шинкавы

Концепция

Ёдзи Шинкава — выдающийся японский художник, чьи работы стали символом слияния футуризма и традиционной эстетики. Почти в каждой его композиции можно встретить гибриды живого и механического: боевые машины, прорастающие словно органические существа, или персонажей, чьи тела переплетены с технологиями так, будто это естественная эволюция человечества. Его миры балансируют между апокалиптичным хаосом и строгой гармонией, где даже монструозные конструкции обретают странную поэтичность.

Стиль Шинкавы узнаётся сразу: Рваные, энергичные линии, словно выхваченные из потока сознания, сочетающие точность инженерного чертежа и свободу каллиграфии.

Metal gear Ray и metal gear Rex

Минимализм в деталях: даже сложные механизмы изображены так, будто это эскиз из блокнота, сохраняющий грубую силу экспрессии.

Original size 735x1143

Значимые работы:

Персонажи серии игр Metal Gear, в частности Солид Снейк, ставший иконой стелс игр.

Концепты боевых машин (Metal Gear), где холодный металл словно «дышит», нарушая границу между жизнью и машиной.

Его стиль, балансирующий между эскизной небрежностью и кинематографичной детализацией, переопределил визуальный язык видеоигр, превратив технический дизайн в высокое искусство.

Цель

Создать и обучить нейросетевую модель генерации изображений в стилистике Йодзи Шинкавы на основе датасета из его работ.

Ход работы

Original size 851x108

Original size 870x192

Original size 1280x256

Original size 695x487

Настройка модели состояла из нескольких этапов, среди которых сбор и обработка датасета из 60 картин Йодзи Шинкавы, обучение модели с использованием Fine-tuning Stable Diffusion XL и применение методов DreamBooth и LoRA. LoRA — обеспечил эффективное обучение модели с использованием небольших вычислительных затрат, а DreamBooth, в свою очередь, отвечал за внедрение концепции стиля.

Для обучения модели потребовалось 1000 шагов, без промежуточных.

Модель базирована на stable-diffusion-xl-base-1.0»

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Сгенерированные изображения

«artwork in Yoji style, a woman with a pistol,…»

«artwork in Yoji style, a man with a pistol»

artwork in Yoji style, a cyborg-ninga with a knife

Original size 3186x1024

the art of metal gear, a portrait of a man with a cigarete, portrait of Big Boss from Metal Gear Solid games

Revolver Ocelot from Metal Gear Solid games, Man in a suit and tie standing

Заключение

слева ИИ, справа работа Шинкавы

Внешний вид сгенерированных изображений очень похож на работы Йодзи Шинкавы. Были переданы динамика штрихов, внешние черты большинства персонажей, и динамика силуэтов.

Из особенностей стоит от метить работу с цветом и пропорциями. Работы Шинкавы достаточно абстрактны, но несмотря на это нейросеть смогла чётко распознать человеческие лица там, где этого не может сделать случайный и неподготовленный зритель

слева ИИ, справа Шинкава

Описание применения генеративной модели

Модель для до-обучения и создания изображений — Stable Diffusion. При генерации большинства промптов и формулировки идеи был использован GPT-4o mini. Помощь в составлении кода для повторной загрузки с Hugging Face уже обученной модели — DeepSeek Chat.

Коллаб с исходным кодом

Гугл Диск хранит 2 файла — первый с процессом обучения модели на основе кода из лекционного материала, второй — с подключением обученной модели с Hugging Face и генерацией изображений.

Обучение генеративной нейросети под стиль Йодзи Шинкавы

Arlan Ahmetov

artificial intelligence