Что могут машины (программы) при редактировании картинки
Машинное обучение

Что могут машины (программы) при редактировании картинки

05.03.2024
91
0

Для редактирования изображения программным способом GAN-модель должна иметь расширенную семантику и быть обученной. Тогда она сможет имитировать эмоции и движения действующего лица. Чего достигли генеративно-состязательные нейросети в этом, читайте в обзоре.

Data Science и Machine Learning

StyleGAN


Это графический интерфейс для редактирования портретов. Для основы нужна модель ArcFace. На экране есть поля для ввода текста. При помощи слов-подсказок получается задавать параметры редактуры. Например: менять цвет, объем и длину волос, убирать или добавлять макияж. С помощью удобной программной обработки легко регулировать возраст модели.

EigenGAN


Система самостоятельно определяет скрытые пространства, которые потом использует для манипуляций. Это пригождается при изменении пола персонажа на картинке, повороте туловища, изменении позы, редактировании прически. У модели возникают сложности только с очками, поскольку их мало в базе данных. Еще некоторые путают пол и позу. Остальные атрибуты воспринимаются корректно.

ReStyle


Для манипулирования изображением в GAN-модель инвертируют скрытый код картинки. Вместо одного прохода предсказания скрытого кода, система с набором данных определяет остаток по отношению к текущей позиции инвертированного скрытого кода. Другими словами изначальная оценка присваивается как среднее значение и сопровождает весь набор данных. Во время инвертирования передается исходная информация и из предыдущего шага. Качество прогнозирования значительно возрастает.

Geometry-Free View Synthesis


Система создает трехмерное изображение пространства по одной фотографии. Достаточно ввести картинку комнаты, части квартиры и модель дорисует все сама, причем в нескольких вариантах. В технологии трансформера используется представление о квантизованом пространстве. Инновация заключается в том, что не требуется предварительное создание в базе 3D модели, описание геометрических сценариев. Система сама учится пространственным параметрам.

LatentCLR


Работает со скрытым пространством GAN-модели и распознает значимые векторные линии. Применяется сравнительный метод обучения без необходимости в корректировке со стороны человека. Нелинейные вектора находятся в таких прошедших предварительное обучение версиях как BigGAN и StyleGAN2.

Articulated Animation


Умеет создавать дипфейки в полный рост. Отделяет тело человека от заднего фона, определяет его манеры движения и выдает новые. Не привязана к отдельному человеку — обучается и применяет это на всех, кого подставишь.

VideoGPT


Новейшая архитектура для генерации видео. Используется автоматический кодировщик VQ-VAE. Образует скрытое представление видеоизображения без разметок, задействуя трехмерные свертки и self-attention. Потом вступает GPT с ее авторегрессионным моделированием и кодированием по времени.

MiVOS


Способен следить за объектами на видео. Создает бинарные маски. Они переносятся на соседние кадры благодаря сверточной нейросети. Пользователь может сравнить кадры и отредактировать маску в любом месте. Удобно работать благодаря графическому интерфейсу.

DINO


Инновационный подход без ручной разметки. Здесь совмещены трансформеры и способность к самостоятельному обучению. Модели сами учатся, работая с неразмеченными данными, а потом используют выборочную фокусировку и строят предположения.

CPA


Предсказывают эффект от совмещенных комбинаций.
Обсудить проект
Выберите тип задачи, расскажите о ней, каким вы видите решение и результат:
0/500
Перетащите файлы,
чтобы загрузить их
Прикрепить файлыЗагружаемые файлы не должны превышать 20 мб
Нажимая на кнопку «Отправить», Вы соглашаетесь c политикой обработки персональных данных и получением информационных рассылок.