Корпоративное ПО
Ритуальная компания, предоставляющая услуги по изготовлению памятников, обратилась с задачей ускорить и упростить процесс фоторетуши. Ранее обработка изображения (удаление фона, стилизация, повышение качества) выполнялась вручную дизайнером-ретушёром, что занимало время и требовало навыков.
Разработан Telegram-бот, который полностью автоматизирует процесс ретуши фотографии и формирует готовое изображение в фирменном стиле клиента. Обработка выполняется в несколько последовательных этапов с применением специализированных нейросетей и программных модулей. На каждом этапе обрабатываются сразу 4 изображения, чтобы предоставить пользователю выбор.
Перед подачей в генеративную модель:
1. Фотография проходит предварительное улучшение (денойзинг, лёгкая коррекция).
2. Далее применяется сегментатор фона, который отделяет человека от окружения.
3. На выходе — чистое изображение человека на прозрачном фоне, готовое к ретуши.
В основе процесса — Stable Diffusion, дополненная тонкой настройкой через LoRA (Low-Rank Adaptation). Мы обучили модель на корпоративном датасете заказчика, состоящем из пар изображений: оригинальных и отретушированных вручную. Это позволило модели не просто улучшать изображение, а воспроизводить конкретный фирменный стиль ретуши, включая:
Одна из проблем генеративных моделей — склонность менять лицо или рисовать новое. Чтобы этого избежать, в пайплайн был внедрён ControlNet, использующий три маски:
Это позволило зафиксировать ключевые черты лица и сохранить внешность человека при генерации.
Stable Diffusion генерирует 4 разных варианта изображения с применением стилизованной ретуши. Это даёт клиенту выбор и снижает риск неудовлетворённого результата.
Все 4 изображения проходит серию дополнительных улучшений:
1. Upscaler (R-ESRGAN 4x+) — увеличивает разрешение без потери качества.
2. Тонкая цветокоррекция — финальные параметры яркости, контраста, насыщенности подбираются по предпочтениям клиента и могут быть индивидуально скорректированы.
3. Добавление виньетки и свечения — реализовано не через ИИ, а через программный алгоритм. Сначала определяется положение головы с помощью нейросети, затем автоматически накладываются эффекты в нужной зоне.
Вся логика завёрнута в Telegram-бот:
Пользователь отправляет фото.