Original size 1140x1600

Нейросеть для создания изображений в стиле Kazuki Takamatsu

PROTECT STATUS: not protected
66

Описание проекта

Kazuki Takamatsu известен своим уникальным стилем, сочетающим традиционную японскую эстетику и цифровую глубинную визуализацию.

Его работы — это монохромные портреты с эффектом «глубинной карты», передающие как физическую, так и эмоциональную глубину персонажей

big
Original size 3840x1920

Подробнее о Kazuki Takamatsu https://phantasmic.com/collections/kaziki-takamatsu

Я решила воссоздать этот стиль с помощью нейросети, чтобы автоматизировать процесс генерации подобных изображений. Цель проекта — не только исследовать, как ИИ может имитировать столь сложную художественную технику, но и предоставить инструмент, позволяющий создавать визуальные образы в духе Takamatsu даже тем, кто не обладает художественными навыками.

Таким образом, проект открывает новые горизонты в цифровом искусстве и делает уникальный стиль доступным для более широкой аудитории

Исходные изображения для обучения

big
Original size 1920x616

Результирующая серия изображений

В итоговой серии изображений представлена работа нейросети, обученной на стиль Kazuki Takamatsu. Основной целью было воспроизведение характерных черт визуального языка художника: монохромная гамма, мягкие градации серого, силуэтность и общее ощущение цифровой глубины

Original size 1920x615

Анализ итоговых изображений

Нейросеть успешно справилась с передачей черно-белой цветовой гаммы и в целом уловила атмосферу и визуальный стиль Takamatsu.

Изображения получились выразительными, с характерным сочетанием нежных тонов и лёгкой мрачности. Особенно хорошо обработаны лица персонажей, а также градиенты, имитирующие мягкое внутреннее свечение — одна из ключевых особенностей стиля

Original size 3840x1048

Тем не менее, в некоторых случаях модель некорректно генерирует руки и ноги: конечности могут выглядеть искажённо или анатомически неточно. Это типичная трудность для генеративных моделей, особенно при работе с нестандартными визуальными стилями. Также стоит отметить фон — в большинстве изображений он получился тёмным и соответствует стилистике Takamatsu, однако в отдельных примерах фон получался слишком светлым, что несколько снижает общее восприятие глубины и контраста

Original size 3840x1360

Одним из ключевых элементов оригинального стиля Kazuki Takamatsu является эффект глубинных карт, придающий иллюстрациям цифровую трёхмерность. К сожалению, нейросеть не смогла воспроизвести этот эффект в полной мере.

Тем не менее, несмотря на это ограничение, итоговые изображения визуально близки к работам художника, что подтверждает успешное стилистическое моделирование

Original size 3840x1782

Обработка исходных данных прошла корректно — модель хорошо усвоила ключевые особенности датасета. Дополнительные методы улучшения (такие как post-processing, фильтры или вспомогательные модели) в данном проекте не использовались, что позволяет объективно оценить именно «чистый» результат генерации.

После генерации, для усиления характерной холодной атмосферы, вручную через настройку цветовой температуры на этапе постобработки был добавлен синий свет. Этот приём помогает приблизить визуальный результат к эстетике оригинальных работ Takamatsu, где часто ощущается лёгкий сине-фиолетовый цифровой оттенок

Original size 3840x1230

Внутри серии изображений заметны вариации по композиции и содержанию: от портретов до изображений в полный рост, с разной степенью детализации. Это позволяет оценить гибкость модели и её способность адаптировать стиль к разным задачам, несмотря на отдельные технические недостатки.

В целом, проект показал, что нейросеть может успешно воспроизводить сложный и узнаваемый художественный стиль, делая его доступным для автоматической генерации. Это открывает возможности как для творческого использования, так и для дальнейших исследований в области визуального ИИ

Код и описание процесса обучения

1. Аутентификация и подготовка окружения

В начале происходит вход в аккаунт Hugging Face с помощью notebook_login (), что позволяет загружать и сохранять модели в репозитории

2. Настройка гиперпараметров и запуск обучения

С помощью команды accelerate launch запускается скрипт train_dreambooth_lora_sdxl.py с набором параметров: — выбор базовой модели — настройка разрешения изображений, размера батча, шагов накопления градиентов, градиентного чекпоинтинга, 8-битного Adam и смешанной точности — задание скорости обучения, количества шагов и прочих гиперпараметров для тренировки LoRA на основе DreamBooth

3. Процесс обучения и сохранения промежуточных результатов

Во время обучения модель проходит через фазы прямого и обратного прохода, корректируя веса с использованием выбранного оптимизатора. При этом периодически сохраняются контрольные точки для возможности восстановления или анализа промежуточных результатов

4. После завершения обучения производится сбор итоговой модели

— создаётся репозиторий на Hugging Face, формируется модель с помощью функции save_model_card — затем итог загружается в репозиторий с помощью upload_folder1

Дополнительно при выполнении проекта использовался СhatGPT для объяснения исходного кода

https://chatgpt.com/

Нейросеть для создания изображений в стиле Kazuki Takamatsu
66