Проблема и задачи клиента
Ритуальная компания, предоставляющая услуги по изготовлению памятников, обратилась с задачей ускорить и упростить процесс фоторетуши. Ранее обработка изображения (удаление фона, стилизация, повышение качества) выполнялась вручную дизайнером-ретушёром, что занимало время и требовало навыков.
- Клиенты часто предоставляют фотографии низкого качества (старые, с артефактами, не в фокусе).
- Требуется стилистическая единообразная ретушь под памятники (мягкий свет, виньетка, удаление фона и т.д.).
- Нужна быстрая обработка и понятный пользовательский интерфейс, чтобы заказчики могли быстро получить результат без участия дизайнера.
Решение
Разработан Telegram-бот, который полностью автоматизирует процесс ретуши фотографии и формирует готовое изображение в фирменном стиле клиента. Обработка выполняется в несколько последовательных этапов с применением специализированных нейросетей и программных модулей. На каждом этапе обрабатываются сразу 4 изображения, чтобы предоставить пользователю выбор.
1. Фоновая обработка и сегментация
Перед подачей в генеративную модель:
- Фотография проходит предварительное улучшение (денойзинг, лёгкая коррекция).
- Далее применяется сегментатор фона, который отделяет человека от окружения.
- На выходе — чистое изображение человека на прозрачном фоне, готовое к ретуши.
2. Обучение модели под стиль клиента
В основе процесса — Stable Diffusion, дополненная тонкой настройкой через LoRA (Low-Rank Adaptation). Мы обучили модель на корпоративном датасете заказчика, состоящем из пар изображений: оригинальных и отретушированных вручную. Это позволило модели не просто улучшать изображение, а воспроизводить конкретный фирменный стиль ретуши, включая:
- Осветление лица
- Мягкие тени
- Гармоничную цветокоррекцию
- Общий «памятный» визуальный стиль
2. Устранение искажений лица через ControlNet
Одна из проблем генеративных моделей — склонность менять лицо или рисовать новое. Чтобы этого избежать, в пайплайн был внедрён ControlNet, использующий три маски:
- Контур лица (face landmark map)
- Глубинная карта (depth map)
- Бинарная маска (область головы)
Это позволило зафиксировать ключевые черты лица и сохранить внешность человека при генерации.
4. Генерация вариантов
Stable Diffusion генерирует 4 разных варианта изображения с применением стилизованной ретуши. Это даёт клиенту выбор и снижает риск неудовлетворённого результата.
5. Постобработка
Все 4 изображения проходит серию дополнительных улучшений:
- Upscaler (R-ESRGAN 4x+) — увеличивает разрешение без потери качества.
- Тонкая цветокоррекция — финальные параметры яркости, контраста, насыщенности подбираются по предпочтениям клиента и могут быть индивидуально скорректированы.
- Добавление виньетки и свечения — реализовано не через ИИ, а через программный алгоритм. Сначала определяется положение головы с помощью нейросети, затем автоматически накладываются эффекты в нужной зоне.
6. Интеграция через Telegram-бот
Вся логика завёрнута в Telegram-бот:
Пользователь отправляет фото.
- Бот отправляет его по API в пайплайн обработки.
- Полученные 4 результата возвращаются в чат.
- Клиент выбирает понравившееся — бот высылает финальное HQ-изображение.
Результат
- Скорость обработки увеличилась в разы — от загрузки до финального результата проходит несколько минут.
- Качество ретуши соответствует ручной работе мастера.
- Масштабируемость — решение легко обрабатывает десятки заказов одновременно.
- Простота для пользователя — всё происходит в чате без необходимости что-либо объяснять дизайнеру.
Мы разрабатываем на заказ подобные чат-боты, которые потом могут использовать фотостудии, типографии и ритуальные агентства.