Original size 1140x1600

Обучение генеративной нейросети под художественный стиль ALPHONSE MUCHA

Идея проекта

Альфонс Муха — чешский художник, один из главных представителей стиля арт-нуво. Его работы отличаются изящными линиями, витражными орнаментами, мягкими пастельными тонами и аллегорическими образами, часто с женскими персонажами в окружении цветов и декоративных элементов.

Цель проекта: Создать кастомную модель на базе Stable Diffusion, способную генерировать изображения в стиле Альфонса Мухи — будь то портреты, иллюстрации или даже абстрактные композиции, сохраняющие его характерную эстетику.

Сбор данных: создание датасета

Обучающую выборку я составила из произведений Мухи разных периодов. Всего получилось около 60 изображений. Моей задачей не было полностью объять его визуальный язык, как автора. Наоборот я старалась чтобы работы походили друг на друга. Ведь так, нейросети будет проще выявить общие принципы. В том чтобы подобрать разные, но похожие работы художника мне здорово помог Pinterest. Особое внимание уделялось: - Типичным элементам (орнаменты, обрамления, женские образы) - Цветовой палитре (приглушенные золотые, пастельные, бирюзовые оттенки) - Узнаваемым композиционным приемам (симметрия, витражная геометрия).

Подготовка изображений

Original size 1210x309

Для оптимальной работы нейросети все изображения из датасета прошли предварительную обработку:

1. Кропинг до квадратного формата (1:1) — С помощью Python, каждое изображение в дататесте было обрезано до квадрата, чтобы соответствовать входным требованиям Stable Diffusion. — При кадрировании сохранялись ключевые элементы композиции (центральные фигуры, орнаменты).

2. Дополнительная оптимизация — Коррекция разрешения, 512×512 пикселей.

Подключение и настройка метаданных для обучения

В Google Colab я запустила, предложенный в курсе скрипт, который берет стандартную Stable Diffusion и «доучивает» ее на моих изображениях. Главное преимущество LoRA в том, что она не требует огромных ресурсов, но при этом хорошо запоминает характерные черты стиля.

Затем подгружаем изображения из папки и установленные программы подготавливают их для обучения.

В Stable Diffusion к каждой картинке нужно прикреплять описание — так нейросеть лучше запоминает стиль. Для этого я создала файл metadata.jsonl!

1. К каждой картинке добавляется текст — часть я задаю вручную (caption_prefix), а часть генерирует программа. 2. Всё это аккуратно упаковывается в metadata.jsonl (это такой специальный формат для данных). 3. Потом модель использует этот файл, чтобы связать картинки с описаниями и научиться правильно копировать стиль mucha art style!

HuggingFace

Далее с помощью функции notebook login () авторизуемся в hugging face hub и загружаем все нужные ресурсы для обучения на нашей модели по своей уникальной ссылке — ключу.

Обучаем модель

Я выставила 500 шагов обучения — этого достаточно, чтобы нейросеть усвоила основные приемы, характерные для Мухи. И не придётся ждать 1000 лет прежде чем она закончит обучение. Периодически я проверяла промежуточные результаты, чтобы убедиться, что все идет как надо.

Результаты генерации

Original size 1024x1024

prompt = «A 19th-century theatre poster: enigmatic actress holding a skull, Art Nouveau lettering for Hamlet, thorny rose borders, moonlit castle spires in muted indigo and silver»

Обученная таким способом нейросеть, может весьма недурно воспроизводить типичные для Альфонса Марии Мухи сюжеты, в его авторской стилистике. Здесь и цветочные орнаменты, и нежные женские образы, и нежная цветовая палитра.

prompt = «A theatrical actress in an Art Nouveau gown, frozen mid-curtain call, swirling fabric mimicking stage curtains, golden filigree proscenium arch, gaslight glow, and floral motifs entwined wit

Original size 1024x1024

Кроме того, ей отлично удаются изображения флоры и фауны, несмотря на то, что в дататесте, использованном для обучения, таковых не было. Что дает мне повод для уверенности в том, что модель обучения уловила именно стилистические принципы, а не смысловые категории, свойственные для этого художника.

«Muchan Phoenix: a fiery bird with a woman’s face, plumage painted in watercolor peonies, stained glass wings, and dragon motifs in the embers»

prompt = «A theatre prop table in Mucha’s world: vintage scripts with gilded edges, masquerade masks entwined with ivy, pocket watch spilling clockwork roses, soft amber lighting»

Original size 1024x1024

prompt = «A large white dog in the style of Alphonse Mucha: vintage scenarios with long silky fur, golden collar, surrounded by flowers and other plants, soft amber lighting.»

Original size 1024x1024

«A large white horse in the style of Alphonse Mucha: vintage scenarios with long silky hair, golden collar, surrounded by flowers and other plants, cold lighting.»

И даже более того! Выученные стилистические приемы нейросеть может использовать даже при создании изображений сюжет которых невозможен в картинах оригинального автора. Мне было очень радостно, когда после запроса нарисовать девушку в стиле Альфонса Мухи, в сеттинге киберпанка, я увидела совершенно новое, но при этом такое же стильное, изображение.

Original size 1024x1024

«Cyber maiden in Art Nouveau: neon-wire hair, pixelated gown with digital floral patterns, circuit-board borders, and holographic accents»

Original size 1024x1024

prompt = «A futuristic seer inspired by Mucha: Galactic map tattoos glowing on her skin, a headdress of orbiting nano-planets, and a robe made of stardust-weave fabric, framed by fractal constellation

Original size 1024x1024

prompt = «A sky-city designer in Mucha’s style: Blueprints hovering as augmented reality projections, cloak patterned with anti-gravity equations, and a floating quill drawing Art Nouveau skyscrapers

Original size 1024x1024

prompt = «A musician from 2123: Laser-string harp emitting prismatic light waves, hair transformed into cascading binary code, and a dress pixelating into peacock feather patterns at the edges.»

Original size 1024x1024

Описание применения генеративной модели

Я использовала DeepSeek Chat (https://chat.deepseek.com), чтобы создать идеальные промпты для нейросети. Благодаря им модель выдавала самые точные результаты, и я смогла проверить, всё ли работает как надо.

Ещё с помощью DeepSeek я добавила комментарии на русском в код — теперь его проще читать и понимать. А ещё немного оптимизировала скрипты, чтобы обучение шло быстрее и без ошибок. Честно говоря, без этого сервиса мне бы пришлось гораздо сложнее!

Код https://colab.research.google.com/drive/15qXO6nM_VBB7R8LZ-3NAitVVEEpXrQg_

Обучение генеративной нейросети под художественный стиль ALPHONSE MUCHA

Ekaterina Vasileva

artificial intelligence