Deep

fake

лаборатория

Раскрываем тайны дипфейков.

Узнайте с помощью наших практических исследований и примеров из сети, как работают дипфейки и какие визуальные подсказки вы можете использовать для их идентификации.

01. Малыш Тесла

Взглянем на популярный пример из интернета.

На этом видео лицо Илона Маска наложили на лицо ребенка. Такой тип смены изображения — наиболее распространенное использование дипфейка. Если вы присмотритесь, то увидите: края картинки не резкие, а цвет кожи лица и тела отличается.

Технические детали

Визуальные эффекты

Дипфейк создается с помощью компьютерной программы, которая воспроизводит лицо, анализируя многочисленные изображения человека. Затем уже воссозданное лицо накладывается на существующее видео — это подобие цифровой маски. Следы такой маски вы можете увидеть на этом видео:

Target Video

Deepfaked Video

Дипфейк-видео: YouTube | AndrewSchrock | Cutest Baby Montage Ever.

Исходное видео: YouTube | TheFakening | Baby Elon Musk Montage Deepfake

02. Сделайте сами

Вы можете сами создать такой эффект. Мы покажем вам, как это сделать.

Дипфейк-видео можно создать на домашнем компьютере, однако вам понадобится довольно мощная видеокарта. Это видео — наша первая попытка, которая демонстрирует, почему так важно использовать подходящие исходные видео.

Shia LaBeouf

Pilar

Видео-источник: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech

Технические детали

Визуальные эффекты

Несоответствие цвета кожи: Между маской и настоящим лицом заметна разница в оттенке кожи. Кажется, что лицо состоит из слоев разных цветов с краями или пятнами.

Несоответствие выражения: Выражение дипфейк-лица не соответствует основному. Черты лица неестественны, они невидимы, размыты или повторяются.

Видимые края: Видны края маски, или же лицо окружают размытые или резкие контуры.

Использованные для обучения алгоритма изображения были неподходящими, чтобы скрыть лицо Шая на видео, также не было кадров в профиль. Если нейронная сеть не обучена работать с такими сюжетами, она не сможет создать точную цифровую маску. Обратите внимание, как рот Шая виден из-под маски, в результате чего получается два рта.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Процесс

Как же создать дипфейк-видео?

Вам нужны два видео: первоисточник и целевое. Программа научится использовать оба одновременно и создаст маску из исходного видео, которую можно наложить на целевое. Для этого применяется программное обеспечение для редактирования.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours

Видео-источник: The Devil Wears Prada | Andy's Interview

Оригинал

Набор данных

Маска

Выравнивание

Deepfake

Публикация

Выберите целевое видео, на которое вы хотите наложить лицо. Для лучшего результата выбирайте видео с однородным фоном.

04. Данные для обучения

Что случится, если мы дадим программе больше контента? Это улучшит продукт?

В этом эксперименте двум программам было дано разное количество изображений. Исследование показало, что большее количество исходного материала улучшает результат. У модели было больше информации о лице, что позволило разработать маску лучшего качества.

Технические детали

Этот эксперимент проводился с одним и тем же исходным видео, экспортированным с двумя разными частотами кадров — обе модели обучались с помощью одной и той же студийной настройки. Количество циклов обучения на каждое изображение было одинаковым, но видео с большим набором данных получило больше времени для обучения. Становится очевидно, что обученный с большим количеством изображений алгоритм может дать более точный результат, который лучше соответствует цели.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

Оригинальный видео-источник: Sherlock | The Reichenbach Fall | Rooftop Showdown

05. Социальное мошенничество

Насколько вы восприимчивы? Можем ли мы украсть ваши изображения в социальных сетях и создать хороший дипфейк?

Мы взяли все изображения в Facebook одного из членов нашей команды и создали дипфейк. Почти на всех исходных изображениях женщина улыбалась, поэтому алгоритм не мог создать маску без улыбки.

Natalie Portman

Pilar

Оригинальный видео-источник: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin

Технические детали

Визуальные эффекты

Размытое лицо: Маска размыта. Видны различия в резкости или разрешении между маской и остальной частью видео.

Несоответствие выражения: Выражение дипфейк-лица не соответствует основному. Черты лица неестественны, они невидимы, размыты или повторяются.

Границы изображение: Лицо сбоку кажется искаженным. Маска деформирована, менее детализирована или неправильно выровнена.

Видео содержит намного больше черт лица, чем попавшие к нам из Facebook изображения. Фотографии члена нашей команды в социальных сетях выбираются автоматически, поэтому среди них отсутствуют изображения, необходимые для создания реалистичных во время речи выражений лица. И хотя более совершенные технологии и могут создавать такие выражения, без разнообразного исходного материала не получится что-то убедительное.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Выбор цели

Мы увидели, как важен источник при обучении алгоритма. А как насчет целевого видео?

Даже с хорошим исходным кодом может быть сложно создать дипфейк. Фильм об Индиане Джонсе содержит хаотичные кадры. По сравнению с более чистыми видео, используемыми раньше, алгоритм не успевает за такой скоростью.

Технические детали

Визуальные эффекты

Размытое лицо: Маска размыта. Заметна разница в резкости или разрешении между маской и остальной частью видео.

Эффект мерцания: Можно заметить мерцание между переходом с оригинального на дипфейк-лицо. Алгоритм не может распознать лицо и на мгновение перестает создавать маску.

Искаженная перспектива: Дипфейк выглядит иначе, чем остальная часть видео. Исходное и целевое видео отличаются фокусным расстоянием.

Дипфейк-видео было экспортировано с разрешением в 64 пикселя. Более низкое разрешение означает, что на обучение алгоритма ушло меньше времени, потому что система всего лишь научилась создавать изображение с низким разрешением. На лицах крупным планом низкое разрешение видео очевидно.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

Оригинальный видео-источник: Indiana Jones and the Temple of Doom | Rope Bridge Fight

07. Не моргайте

Иногда два видео сливаются вместе. В этом целевое видео даже имитирует свое новое лицо.

Это дипфейк-видео было создано на основе сегмента ток-шоу, где Билл Хейдер изображает Арнольда Шварценеггера. Благодаря использованию подходящего исходного материала для создания Арнольда Шварценеггера результаты были убедительными.

Bill Hader

Arnold Schwarzenegger

Оригинальный видео-источник: Bill Hader Presents: Schwarzenegger Baby

Source deepfaked video: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]

Технические детали

Визуальные эффекты

Наложение лица одно на другое, оттенок кожи и разрешение очень хорошие. На удаленном снимке трудно разглядеть размытые элементы. Пост-продакшн профессиональный. Единственная недоработка — когда Билл Хейдер показывает палец перед лицом, и тот исчезает за маской. Разница в резкости и угле наклона пальца наводит на мысль, что создатель попытался скрыть такой эффект во время пост-продакшена.

08. Время важно

Что произойдет, если мы позволим алгоритму больше поработать над исходным контентом? Улучшатся ли результаты?

Для этого эксперимента одна модель обучалась 4 часа, а другая — 48 часов. Результаты 48-часовой модели показали улучшенную детализацию лица.

Технические детали

Время обучения связано с тем, сколько раз алгоритмом обрабатывает изображение. Процесс включает в себя создание лица (или цифровой маски), сравнение его с исходным изображением. После этого система вносит корректировки для повышения сходства маски с исходным лицом. Модель проходит этот цикл один раз для всех исходных изображений, а затем запускается снова. Время работы зависит от мощности используемого компьютера.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

Constance Wu

Yueling

Оригинальный видео-источник: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means

09. Алгоритмы

Последний эксперимент. Как разные алгоритмы реагируют на определенные условия?

Для этого эксперимента мы сами создали как исходное, так и целевое видео. Хорошо прослеживаются методы алгоритма. H128 создает квадратную маску, в то время как SAEHD лучше соответствует форме и чертам лица.

Arthur

Andrej

Технические детали

H128 — более легкая модель. Она быстрее добивается качественных результатов. Более точная маска SAEHD лучше справляется с рукой и подстраивается под освещение. H128 лучше обучается создавать лицо: маска более резкая, устойчивая и лучше работает с движением и изменениями перспективы. Эксперты считают, что при большем времени обучения SAEHD превзойдет H128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Будьте внимательны

Посмотрим, что на самом деле происходит с дипфейк-видео.

Имейте в виду: дипфейк-видео могут быть качественными, и их трудно распознать. Хотя мы сосредоточились на смене лица, такую технику также можно использовать для реконструкции лица, создавая впечатление, будто человек что-то сказал.

Технические детали

Реконструкция лица требует гораздо большей вычислительной мощности, но ее гораздо сложнее распознать. Многие проблемы, связанные с исходными видео, не относятся к реконструкции, однако алгоритм действует аналогичным образом. Воссозданные части лица будут немного размыты и менее детализированы.

Обращайте также внимание на звук и ищите несовпадения в синхронизации губ. Используя информацию на этом сайте, задайте вопрос, может ли видео стать целевым и подходят ли его условия для возможного дипфейка. В случае сомнений всегда проверяйте источник видео.

Источник дипфейк-видео: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.

Краткое изложение навыков, которые вы приобрели на этом сайте для самостоятельной проверки видео.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0