Original size 1140x1600

Обучение генеративной нейросети под художественный стиль ALPHONSE MUCHA

PROTECT STATUS: not protected
30

Идея проекта

post

Альфонс Муха — чешский художник, один из главных представителей стиля арт-нуво. Его работы отличаются изящными линиями, витражными орнаментами, мягкими пастельными тонами и аллегорическими образами, часто с женскими персонажами в окружении цветов и декоративных элементов.

Цель проекта: Создать кастомную модель на базе Stable Diffusion, способную генерировать изображения в стиле Альфонса Мухи — будь то портреты, иллюстрации или даже абстрактные композиции, сохраняющие его характерную эстетику.

Сбор данных: создание датасета

post

Обучающую выборку я составила из произведений Мухи разных периодов. Всего получилось около 60 изображений. Моей задачей не было полностью объять его визуальный язык, как автора. Наоборот я старалась чтобы работы походили друг на друга. Ведь так, нейросети будет проще выявить общие принципы. В том чтобы подобрать разные, но похожие работы художника мне здорово помог Pinterest. Особое внимание уделялось: - Типичным элементам (орнаменты, обрамления, женские образы) - Цветовой палитре (приглушенные золотые, пастельные, бирюзовые оттенки) - Узнаваемым композиционным приемам (симметрия, витражная геометрия).

Подготовка изображений

big
Original size 1210x309

Для оптимальной работы нейросети все изображения из датасета прошли предварительную обработку:

1. Кропинг до квадратного формата (1:1)  — С помощью Python, каждое изображение в дататесте было обрезано до квадрата, чтобы соответствовать входным требованиям Stable Diffusion.  — При кадрировании сохранялись ключевые элементы композиции (центральные фигуры, орнаменты).

2. Дополнительная оптимизация  — Коррекция разрешения, 512×512 пикселей.

Подключение и настройка метаданных для обучения

post

В Google Colab я запустила, предложенный в курсе скрипт, который берет стандартную Stable Diffusion и «доучивает» ее на моих изображениях. Главное преимущество LoRA в том, что она не требует огромных ресурсов, но при этом хорошо запоминает характерные черты стиля.

Затем подгружаем изображения из папки и установленные программы подготавливают их для обучения.

post

В Stable Diffusion к каждой картинке нужно прикреплять описание — так нейросеть лучше запоминает стиль. Для этого я создала файл metadata.jsonl!

1. К каждой картинке добавляется текст — часть я задаю вручную (caption_prefix), а часть генерирует программа. 2. Всё это аккуратно упаковывается в metadata.jsonl (это такой специальный формат для данных). 3. Потом модель использует этот файл, чтобы связать картинки с описаниями и научиться правильно копировать стиль mucha art style!

HuggingFace

Далее с помощью функции notebook login () авторизуемся в hugging face hub и загружаем все нужные ресурсы для обучения на нашей модели по своей уникальной ссылке — ключу.

Обучаем модель

post

Я выставила 500 шагов обучения — этого достаточно, чтобы нейросеть усвоила основные приемы, характерные для Мухи. И не придётся ждать 1000 лет прежде чем она закончит обучение. Периодически я проверяла промежуточные результаты, чтобы убедиться, что все идет как надо.

Результаты генерации

Original size 1024x1024

prompt = «A 19th-century theatre poster: enigmatic actress holding a skull, Art Nouveau lettering for Hamlet, thorny rose borders, moonlit castle spires in muted indigo and silver»

Обученная таким способом нейросеть, может весьма недурно воспроизводить типичные для Альфонса Марии Мухи сюжеты, в его авторской стилистике. Здесь и цветочные орнаменты, и нежные женские образы, и нежная цветовая палитра.

prompt = «A theatrical actress in an Art Nouveau gown, frozen mid-curtain call, swirling fabric mimicking stage curtains, golden filigree proscenium arch, gaslight glow, and floral motifs entwined wit

Original size 1024x1024
Original size 1024x1024
Original size 1024x1024

Кроме того, ей отлично удаются изображения флоры и фауны, несмотря на то, что в дататесте, использованном для обучения, таковых не было. Что дает мне повод для уверенности в том, что модель обучения уловила именно стилистические принципы, а не смысловые категории, свойственные для этого художника.

«Muchan Phoenix: a fiery bird with a woman’s face, plumage painted in watercolor peonies, stained glass wings, and dragon motifs in the embers»

prompt = «A theatre prop table in Mucha’s world: vintage scripts with gilded edges, masquerade masks entwined with ivy, pocket watch spilling clockwork roses, soft amber lighting»

Original size 1024x1024
Original size 1024x1024

prompt = «A large white dog in the style of Alphonse Mucha: vintage scenarios with long silky fur, golden collar, surrounded by flowers and other plants, soft amber lighting.»

Original size 1024x1024

«A large white horse in the style of Alphonse Mucha: vintage scenarios with long silky hair, golden collar, surrounded by flowers and other plants, cold lighting.»

И даже более того! Выученные стилистические приемы нейросеть может использовать даже при создании изображений сюжет которых невозможен в картинах оригинального автора. Мне было очень радостно, когда после запроса нарисовать девушку в стиле Альфонса Мухи, в сеттинге киберпанка, я увидела совершенно новое, но при этом такое же стильное, изображение.

Original size 1024x1024

«Cyber maiden in Art Nouveau: neon-wire hair, pixelated gown with digital floral patterns, circuit-board borders, and holographic accents»

Original size 1024x1024

prompt = «A futuristic seer inspired by Mucha: Galactic map tattoos glowing on her skin, a headdress of orbiting nano-planets, and a robe made of stardust-weave fabric, framed by fractal constellation

Original size 1024x1024

prompt = «A futuristic seer inspired by Mucha: Galactic map tattoos glowing on her skin, a headdress of orbiting nano-planets, and a robe made of stardust-weave fabric, framed by fractal constellation

Original size 1024x1024

prompt = «A sky-city designer in Mucha’s style: Blueprints hovering as augmented reality projections, cloak patterned with anti-gravity equations, and a floating quill drawing Art Nouveau skyscrapers

Original size 1024x1024
Original size 1024x1024

prompt = «A musician from 2123: Laser-string harp emitting prismatic light waves, hair transformed into cascading binary code, and a dress pixelating into peacock feather patterns at the edges.»

Original size 1024x1024

Описание применения генеративной модели

Я использовала DeepSeek Chat (https://chat.deepseek.com), чтобы создать идеальные промпты для нейросети. Благодаря им модель выдавала самые точные результаты, и я смогла проверить, всё ли работает как надо.

Ещё с помощью DeepSeek я добавила комментарии на русском в код — теперь его проще читать и понимать. А ещё немного оптимизировала скрипты, чтобы обучение шло быстрее и без ошибок. Честно говоря, без этого сервиса мне бы пришлось гораздо сложнее!

Обучение генеративной нейросети под художественный стиль ALPHONSE MUCHA
30