Что могут машины (программы) при редактировании картинки

Для редактирования изображения программным способом GAN-модель должна иметь расширенную семантику и быть обученной. Тогда она сможет имитировать эмоции и движения действующего лица. Чего достигли генеративно-состязательные нейросети в этом, читайте в обзоре.

Data Science и Machine Learning

StyleGAN

Это графический интерфейс для редактирования портретов. Для основы нужна модель ArcFace. На экране есть поля для ввода текста. При помощи слов-подсказок получается задавать параметры редактуры. Например: менять цвет, объем и длину волос, убирать или добавлять макияж. С помощью удобной программной обработки легко регулировать возраст модели.

EigenGAN

Система самостоятельно определяет скрытые пространства, которые потом использует для манипуляций. Это пригождается при изменении пола персонажа на картинке, повороте туловища, изменении позы, редактировании прически. У модели возникают сложности только с очками, поскольку их мало в базе данных. Еще некоторые путают пол и позу. Остальные атрибуты воспринимаются корректно.

ReStyle

Для манипулирования изображением в GAN-модель инвертируют скрытый код картинки. Вместо одного прохода предсказания скрытого кода, система с набором данных определяет остаток по отношению к текущей позиции инвертированного скрытого кода. Другими словами изначальная оценка присваивается как среднее значение и сопровождает весь набор данных. Во время инвертирования передается исходная информация и из предыдущего шага. Качество прогнозирования значительно возрастает.

Geometry-Free View Synthesis

Система создает трехмерное изображение пространства по одной фотографии. Достаточно ввести картинку комнаты, части квартиры и модель дорисует все сама, причем в нескольких вариантах. В технологии трансформера используется представление о квантизованом пространстве. Инновация заключается в том, что не требуется предварительное создание в базе 3D модели, описание геометрических сценариев. Система сама учится пространственным параметрам.

LatentCLR

Работает со скрытым пространством GAN-модели и распознает значимые векторные линии. Применяется сравнительный метод обучения без необходимости в корректировке со стороны человека. Нелинейные вектора находятся в таких прошедших предварительное обучение версиях как BigGAN и StyleGAN2.

Articulated Animation

Умеет создавать дипфейки в полный рост. Отделяет тело человека от заднего фона, определяет его манеры движения и выдает новые. Не привязана к отдельному человеку — обучается и применяет это на всех, кого подставишь.

VideoGPT

Новейшая архитектура для генерации видео. Используется автоматический кодировщик VQ-VAE. Образует скрытое представление видеоизображения без разметок, задействуя трехмерные свертки и self-attention. Потом вступает GPT с ее авторегрессионным моделированием и кодированием по времени.

MiVOS

Способен следить за объектами на видео. Создает бинарные маски. Они переносятся на соседние кадры благодаря сверточной нейросети. Пользователь может сравнить кадры и отредактировать маску в любом месте. Удобно работать благодаря графическому интерфейсу.

DINO

Инновационный подход без ручной разметки. Здесь совмещены трансформеры и способность к самостоятельному обучению. Модели сами учатся, работая с неразмеченными данными, а потом используют выборочную фокусировку и строят предположения.