Restarting the experience

Deep

fake

Lab

Проливаємо світло на таємницю діпфейків.

Дізнайтеся, як працюють так звані «діпфейки», або «глибинні фейки, та за якими візуальними ознаками їх можна розпізнати, на основі наших практичних досліджень та прикладів з інтернету.

01. Малятко Тесла

Погляньмо на популярний приклад з інтернету.

У цьому відео на обличчя немовляти наклали Ілона Маска. Така заміна обличчя — найбільш типове використання технології deepfake. Погляньте уважно: краї розмиті, а тон шкіри інакший.

Технічні деталі:

Візуальні недоліки:

Діпфейки створює комп’ютерна програма, здатна навчатися відтворювати обличчя за допомогою аналізу численних зображень людини. Далі програма накладає відтворене обличчя на наявне відео — це наче цифрова маска. Сліди такої маски можна побачити в цьому відео:

Target Video

Deepfaked Video

Відео, на яке наклали зображення: YouTube | AndrewSchrock | Cutest Baby Montage Ever.

Джерело: YouTube | TheFakening | Baby Elon Musk Montage Deepfake

02. Саморобка

Ви можете й самі повторити це вдома. Ми покажемо, як.

Діпфейки можна робити й на своєму комп'ютері, але потрібен досить потужний графічний адаптер. Це відео — наша перша спроба, на якій видно, чому важливо використовувати підходящі вихідні відео.

Shia LaBeouf

Pilar

Відео, на яке наклали зображення: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech

Технічні деталі:

Пояснення іконок:

Зображення, які використовувалися для навчання алгоритму, не включали тих виразів обличчя, які потрібні були для відтворення обличчя Шаї Лабафа у відео, не було й зображень у профіль. Якщо нейромережі не дати такий матеріал для навчання, вона не може створити точну цифрову маску. Зверніть увагу, як з-під маски видно рот Шаї, через що на відео виходить два рота.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Процес

То як створити діпфейк?

Вам потрібно два відео: вихідне і цільове. Програма навчатиметься на обох і створить маску з відео-джерела, яку можна буде накласти на цільове відео за допомогою програми для роботи з відео.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Оригінал цільового відео: The Devil Wears Prada | Andy's Interview

Відео-оригінал

Набір даних

Маска

Зведення

Діпфейк

Обробка

Оберіть відео, на яке ви хочете накласти обличчя. Щоб результат був кращим, оберіть відео, де камера не рухається, а фон не змінюється протягом всього часу.

04. Дані для навчання

А якщо дати програмі більше контенту для навчання? Результат буде кращим?

Для експерименту у дві програми завантажили різну кількість кадрів. Видно, що результат кращий, коли вихідного матеріалу більше. Програма більше «знає» про обличчя, і маска виходить більш якісною.

Технічні деталі:

В експерименті використали те саме відео-джерело, яке експортували з різною частотою кадрів — інші умови були однаковими. На одне зображення припадала така сама кількість навчальних циклів, однак у випадку більшого набору даних потрібно було більше часу для навчання. Видно, що алгоритм, в який завантажили більше кадрів, може досягти більш точного результату, який краще збігається з цільовим відео.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

Оригінал цільового відео:Sherlock | The Reichenbach Fall | Rooftop Showdown

05. Соціальне шахрайство

А наскільки ви в зоні ризику? Чи вдасться нам вкрасти дані з ваших соцмереж і створити якісний діпфейк?

Ми взяли всі фото однієї з членів нашої команди з Фейсбука та створили діпфейк. Майже на всіх вихідних фото вона посміхалася, тому алгоритм не міг створити маску без посмішки.

Natalie Portman

Pilar

Оригінал цільового відео: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin

Технічні деталі

Пояснення іконок

У відео значно більше нюансів обличчя, ніж на фото з Фейсбука. Фото, які учасниця нашої команди розміщує в соцмережах, вона відбирає сама, тому там не вистачає зображень, які потрібні для створення реалістичних виразів під час розмови. За допомогою кращих технологій, ймовірно, вдалося б краще зімітувати вирази обличчя, але без різноманітних вихідних фото переконливий діпфейк створити неможливо.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

6. Вибір цільового відео

Ми вже побачили, наскільки вихідні дані важливі для навчання алгоритму. А як щодо відео, на яке накладається маска?

Навіть коли джерело якісне, зробити діпфейк може бути складно. Наприклад, у фільмах «Індіана Джонс» кадри хаотичні. Порівняно з «чистішими» відео, які ми використовували, алгоритму стає важче.

Технічні деталі

Пояснення іконок

Діпфейк зберегли з роздільною здатністю 64 пікселі. Завдяки низькій роздільній здатності алгоритм тренується швидше, бо він має навчитися відтворювати лише зображення з нечіткою роздільною здатністю. У кадрах великим планом низьку роздільну здатність відразу ж видно.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

Оригінал цільового відео: Indiana Jones and the Temple of Doom | Rope Bridge Fight

7. Не пропустіть момент

Іноді два відео поєднуються ідеально. У цьому відео людина, на яку накладають маску, навіть імітує своє ж нове обличчя.

Цей діпфейк зробили з фрагменту ток-шоу, в якому Білл Гейдер пародіює Арнольда Шварценеггера. Завдяки використанню якісного вихідного матеріалу зі Шварценеггером результат вийшов переконливий.

Bill Hader

Arnold Schwarzenegger

Технічні деталі

Пояснення іконок

Поєднання облич, тон шкіри та роздільна здатність якісні. Через кадр дальнього плану важко помітити якісь неточності. Обробили відео професійно. Єдине, що наводить на думку про діпфейк, — коли Гейдер проводить пальцем перед обличчям, і палець зникає за маскою. Різниця в чіткості та куті, під яким розміщено палець, вказує, що автор діпфейку старався приховати цей недолік під час обробки відео.

8. Час має значення

А що, як ми дозволимо алгоритму довше вчитися на вихідному контенті? Результати покращаться?

Для цього експерименту одна модель навчалась протягом чотирьох годин, а інша — протягом 48 годин. Другій моделі вдалося більш детально відтворити обличчя та зробити його більш тривимірним.

Технічні деталі

Від часу навчання залежить, скільки разів алгоритм обробить зображення. Цей процес включає створення обличчя (чи цифрової маски), порівняння з вихідним зображенням та редагування, щоб збільшити подібність маски до джерела. Модель таким чином обробляє всі зображення, а тоді починає все знову. Швидкість роботи залежить від потужності комп’ютера.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

Constance Wu

Yueling

9. Алгоритми

Останній експеримент. Як різні алгоритми реагують на певні умови?

Для цього експерименту ми самі зняли відео-джерело та цільове відео. Методи алгоритму добре видно. H128 створює квадратну маску, а SAEHD краще поєднує обличчя.

Arthur

Andrej

Технічні деталі

Н128 — «легша» модель, яка швидше досягає результату. SAEHD — точніша маска, вона краще справляється з рукою та краще змішує різні тони залежно від світла. Схоже, що Н128 краще навчена створювати обличчя — маска чіткіша, стабільніша і має більш реалістичний вигляд зі змінами руху та перспективи. Однак експерти стверджують, що якщо дати SAEHD більше часу на навчання, вона зрештою досягне кращого результату, ніж Н128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Пильнуйте

Погляньмо, яка насправді ситуація з діпфейками.

Увага: діпфейки можуть бути якісні, а розпізнати їх іноді важко. Ми вивчали заміщення обличчя, але діпфейки також використовують для реконструкції — створення відео, де людина нібито щось говорить.

Технічні деталі

Реконструкція потребує більшої потужності комп’ютера, але її набагато важче розпізнати. Чимало труднощів з вихідним матеріалом не стосуються реконструкції, але алгоритм працює подібним чином. Реконструйовані риси обличчя просто будуть трохи розмиті й не такі детальні.

Звертайте увагу на аудіо та шукайте недоліки в синхронізації руху губ із мовленням. Ви вже знаєте, як це працює, тож можете поміркувати, чи легко таке відео використати для відтворення обличчя та чи підходить воно для можливого діпфейку. Якщо сумніваєтесь, завжди варто перевірити джерело відео.

Ось коротке резюме того, що ви дізналися на цьому сайті, щоб ви могли самостійно перевірити відео.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0