StyleGAN
Это графический интерфейс для редактирования портретов. Для основы нужна модель ArcFace. На экране есть поля для ввода текста. При помощи слов-подсказок получается задавать параметры редактуры. Например: менять цвет, объем и длину волос, убирать или добавлять макияж. С помощью удобной программной обработки легко регулировать возраст модели.
EigenGAN
Система самостоятельно определяет скрытые пространства, которые потом использует для манипуляций. Это пригождается при изменении пола персонажа на картинке, повороте туловища, изменении позы, редактировании прически. У модели возникают сложности только с очками, поскольку их мало в базе данных. Еще некоторые путают пол и позу. Остальные атрибуты воспринимаются корректно.
ReStyle
Для манипулирования изображением в GAN-модель инвертируют скрытый код картинки. Вместо одного прохода предсказания скрытого кода, система с набором данных определяет остаток по отношению к текущей позиции инвертированного скрытого кода. Другими словами изначальная оценка присваивается как среднее значение и сопровождает весь набор данных. Во время инвертирования передается исходная информация и из предыдущего шага. Качество прогнозирования значительно возрастает.
Geometry-Free View Synthesis
Система создает трехмерное изображение пространства по одной фотографии. Достаточно ввести картинку комнаты, части квартиры и модель дорисует все сама, причем в нескольких вариантах. В технологии трансформера используется представление о квантизованом пространстве. Инновация заключается в том, что не требуется предварительное создание в базе 3D модели, описание геометрических сценариев. Система сама учится пространственным параметрам.
LatentCLR
Работает со скрытым пространством GAN-модели и распознает значимые векторные линии. Применяется сравнительный метод обучения без необходимости в корректировке со стороны человека. Нелинейные вектора находятся в таких прошедших предварительное обучение версиях как BigGAN и StyleGAN2.
Articulated Animation
Умеет создавать дипфейки в полный рост. Отделяет тело человека от заднего фона, определяет его манеры движения и выдает новые. Не привязана к отдельному человеку — обучается и применяет это на всех, кого подставишь.
VideoGPT
Новейшая архитектура для генерации видео. Используется автоматический кодировщик VQ-VAE. Образует скрытое представление видеоизображения без разметок, задействуя трехмерные свертки и self-attention. Потом вступает GPT с ее авторегрессионным моделированием и кодированием по времени.
MiVOS
Способен следить за объектами на видео. Создает бинарные маски. Они переносятся на соседние кадры благодаря сверточной нейросети. Пользователь может сравнить кадры и отредактировать маску в любом месте. Удобно работать благодаря графическому интерфейсу.
DINO
Инновационный подход без ручной разметки. Здесь совмещены трансформеры и способность к самостоятельному обучению. Модели сами учатся, работая с неразмеченными данными, а потом используют выборочную фокусировку и строят предположения.
CPA
Предсказывают эффект от совмещенных комбинаций.