Restarting the experience
Узнайте с помощью наших практических исследований и примеров из сети, как работают дипфейки и какие визуальные подсказки вы можете использовать для их идентификации.
На этом видео лицо Илона Маска наложили на лицо ребенка. Такой тип смены изображения — наиболее распространенное использование дипфейка. Если вы присмотритесь, то увидите: края картинки не резкие, а цвет кожи лица и тела отличается.
Технические детали
Визуальные эффекты
Несоответствие цвета кожи: Между маской и лицом заметна разница в оттенке кожи. Кажется, что лицо состоит из слоев разных цветов с краями или пятнами.
Дипфейк создается с помощью компьютерной программы, которая воспроизводит лицо, анализируя многочисленные изображения человека. Затем уже воссозданное лицо накладывается на существующее видео — это подобие цифровой маски. Следы такой маски вы можете увидеть на этом видео:
Target Video
Deepfaked Video
Дипфейк-видео: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Исходное видео: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Дипфейк-видео можно создать на домашнем компьютере, однако вам понадобится довольно мощная видеокарта. Это видео — наша первая попытка, которая демонстрирует, почему так важно использовать подходящие исходные видео.
Shia LaBeouf
Pilar
Технические детали
Визуальные эффекты
Несоответствие цвета кожи: Между маской и настоящим лицом заметна разница в оттенке кожи. Кажется, что лицо состоит из слоев разных цветов с краями или пятнами.
Несоответствие выражения: Выражение дипфейк-лица не соответствует основному. Черты лица неестественны, они невидимы, размыты или повторяются.
Видимые края: Видны края маски, или же лицо окружают размытые или резкие контуры.
Использованные для обучения алгоритма изображения были неподходящими, чтобы скрыть лицо Шая на видео, также не было кадров в профиль. Если нейронная сеть не обучена работать с такими сюжетами, она не сможет создать точную цифровую маску. Обратите внимание, как рот Шая виден из-под маски, в результате чего получается два рта.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Вам нужны два видео: первоисточник и целевое. Программа научится использовать оба одновременно и создаст маску из исходного видео, которую можно наложить на целевое. Для этого применяется программное обеспечение для редактирования.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Видео-источник: The Devil Wears Prada |
Andy's Interview
Оригинал
Набор данных
Маска
Выравнивание
Deepfake
Публикация
Выберите целевое видео, на которое вы хотите наложить лицо. Для лучшего результата выбирайте видео с однородным фоном.
Запишите набор данных для лица, которое вы хотите разместить (источник), максимально подтянув освещение и выражения.
На целевом видео закрывайте лица других людей, иначе они будут улавливаться алгоритмом и запутают процесс обучения системы.
Алгоритм выберет удобные для обучения размеры лиц и сохранит их положение, чтобы потом точно наложить маску.
Алгоритм генерирует маску лица из исходного видео, которую затем необходимо выровнять по целевому.
Программное обеспечение для редактирования видео позволит вам применить маску как можно точнее и улучшить итоговый продукт.
В этом эксперименте двум программам было дано разное количество изображений. Исследование показало, что большее количество исходного материала улучшает результат. У модели было больше информации о лице, что позволило разработать маску лучшего качества.
Технические детали
Этот эксперимент проводился с одним и тем же исходным видео, экспортированным с двумя разными частотами кадров — обе модели обучались с помощью одной и той же студийной настройки. Количество циклов обучения на каждое изображение было одинаковым, но видео с большим набором данных получило больше времени для обучения. Становится очевидно, что обученный с большим количеством изображений алгоритм может дать более точный результат, который лучше соответствует цели.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Оригинальный видео-источник: Sherlock | The Reichenbach Fall | Rooftop Showdown
Мы взяли все изображения в Facebook одного из членов нашей команды и создали дипфейк. Почти на всех исходных изображениях женщина улыбалась, поэтому алгоритм не мог создать маску без улыбки.
Natalie Portman
Pilar
Оригинальный видео-источник: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
Технические детали
Визуальные эффекты
Размытое лицо: Маска размыта. Видны различия в резкости или разрешении между маской и остальной частью видео.
Несоответствие выражения: Выражение дипфейк-лица не соответствует основному. Черты лица неестественны, они невидимы, размыты или повторяются.
Границы изображение: Лицо сбоку кажется искаженным. Маска деформирована, менее детализирована или неправильно выровнена.
Видео содержит намного больше черт лица, чем попавшие к нам из Facebook изображения. Фотографии члена нашей команды в социальных сетях выбираются автоматически, поэтому среди них отсутствуют изображения, необходимые для создания реалистичных во время речи выражений лица. И хотя более совершенные технологии и могут создавать такие выражения, без разнообразного исходного материала не получится что-то убедительное.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Даже с хорошим исходным кодом может быть сложно создать дипфейк. Фильм об Индиане Джонсе содержит хаотичные кадры. По сравнению с более чистыми видео, используемыми раньше, алгоритм не успевает за такой скоростью.
Технические детали
Визуальные эффекты
Размытое лицо: Маска размыта. Заметна разница в резкости или разрешении между маской и остальной частью видео.
Эффект мерцания: Можно заметить мерцание между переходом с оригинального на дипфейк-лицо. Алгоритм не может распознать лицо и на мгновение перестает создавать маску.
Искаженная перспектива: Дипфейк выглядит иначе, чем остальная часть видео. Исходное и целевое видео отличаются фокусным расстоянием.
Дипфейк-видео было экспортировано с разрешением в 64 пикселя. Более низкое разрешение означает, что на обучение алгоритма ушло меньше времени, потому что система всего лишь научилась создавать изображение с низким разрешением. На лицах крупным планом низкое разрешение видео очевидно.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Оригинальный видео-источник: Indiana Jones and the Temple of Doom | Rope Bridge Fight
Это дипфейк-видео было создано на основе сегмента ток-шоу, где Билл Хейдер изображает Арнольда Шварценеггера. Благодаря использованию подходящего исходного материала для создания Арнольда Шварценеггера результаты были убедительными.
Bill Hader
Arnold Schwarzenegger
Оригинальный видео-источник: Bill Hader Presents: Schwarzenegger Baby
Source deepfaked video: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Технические детали
Визуальные эффекты
Преграда перед лицом: Когда перед лицом мелькают объекты, маска искажает или закрывает эти объекты.
Наложение лица одно на другое, оттенок кожи и разрешение очень хорошие. На удаленном снимке трудно разглядеть размытые элементы. Пост-продакшн профессиональный. Единственная недоработка — когда Билл Хейдер показывает палец перед лицом, и тот исчезает за маской. Разница в резкости и угле наклона пальца наводит на мысль, что создатель попытался скрыть такой эффект во время пост-продакшена.
Для этого эксперимента одна модель обучалась 4 часа, а другая — 48 часов. Результаты 48-часовой модели показали улучшенную детализацию лица.
Технические детали
Время обучения связано с тем, сколько раз алгоритмом обрабатывает изображение. Процесс включает в себя создание лица (или цифровой маски), сравнение его с исходным изображением. После этого система вносит корректировки для повышения сходства маски с исходным лицом. Модель проходит этот цикл один раз для всех исходных изображений, а затем запускается снова. Время работы зависит от мощности используемого компьютера.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Оригинальный видео-источник: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Для этого эксперимента мы сами создали как исходное, так и целевое видео. Хорошо прослеживаются методы алгоритма. H128 создает квадратную маску, в то время как SAEHD лучше соответствует форме и чертам лица.
Arthur
Andrej
Технические детали
H128 — более легкая модель. Она быстрее добивается качественных результатов. Более точная маска SAEHD лучше справляется с рукой и подстраивается под освещение. H128 лучше обучается создавать лицо: маска более резкая, устойчивая и лучше работает с движением и изменениями перспективы. Эксперты считают, что при большем времени обучения SAEHD превзойдет H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Имейте в виду: дипфейк-видео могут быть качественными, и их трудно распознать. Хотя мы сосредоточились на смене лица, такую технику также можно использовать для реконструкции лица, создавая впечатление, будто человек что-то сказал.
Технические детали
Реконструкция лица требует гораздо большей вычислительной мощности, но ее гораздо сложнее распознать. Многие проблемы, связанные с исходными видео, не относятся к реконструкции, однако алгоритм действует аналогичным образом. Воссозданные части лица будут немного размыты и менее детализированы.
Обращайте также внимание на звук и ищите несовпадения в синхронизации губ. Используя информацию на этом сайте, задайте вопрос, может ли видео стать целевым и подходят ли его условия для возможного дипфейка. В случае сомнений всегда проверяйте источник видео.
Источник дипфейк-видео: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.