Restarting the experience
Дізнайтеся, як працюють так звані «діпфейки», або «глибинні фейки, та за якими візуальними ознаками їх можна розпізнати, на основі наших практичних досліджень та прикладів з інтернету.
У цьому відео на обличчя немовляти наклали Ілона Маска. Така заміна обличчя — найбільш типове використання технології deepfake. Погляньте уважно: краї розмиті, а тон шкіри інакший.
Технічні деталі:
Візуальні недоліки:
Розбіжності в кольорі шкіри: Тон шкіри маски та обличчя, на яке її накладають, відрізняються. Схоже, що на обличчі є нашарування кольорів; видно краї чи плями.
Діпфейки створює комп’ютерна програма, здатна навчатися відтворювати обличчя за допомогою аналізу численних зображень людини. Далі програма накладає відтворене обличчя на наявне відео — це наче цифрова маска. Сліди такої маски можна побачити в цьому відео:
Target Video
Deepfaked Video
Відео, на яке наклали зображення: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Джерело: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Діпфейки можна робити й на своєму комп'ютері, але потрібен досить потужний графічний адаптер. Це відео — наша перша спроба, на якій видно, чому важливо використовувати підходящі вихідні відео.
Shia LaBeouf
Pilar
Відео, на яке наклали зображення: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech
Технічні деталі:
Пояснення іконок:
Розбіжності в кольорі шкіри: Тон шкіри маски та обличчя, на яке її накладають, відрізняються. Схоже, що на обличчі є нашарування кольорів; видно краї чи плями.
Розбіжності у виразах: Вирази на масці не збігаються з виразами лиця, на яке накладають відео. Риси рухаються неприродньо, їх не видно, вони розмиті чи повторюються.
Видимі краї: Видно краї маски — чіткі чи розмиті краї навколо обличчя.
Зображення, які використовувалися для навчання алгоритму, не включали тих виразів обличчя, які потрібні були для відтворення обличчя Шаї Лабафа у відео, не було й зображень у профіль. Якщо нейромережі не дати такий матеріал для навчання, вона не може створити точну цифрову маску. Зверніть увагу, як з-під маски видно рот Шаї, через що на відео виходить два рота.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Вам потрібно два відео: вихідне і цільове. Програма навчатиметься на обох і створить маску з відео-джерела, яку можна буде накласти на цільове відео за допомогою програми для роботи з відео.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Оригінал цільового відео: The Devil Wears Prada | Andy's Interview
Відео-оригінал
Набір даних
Маска
Зведення
Діпфейк
Обробка
Оберіть відео, на яке ви хочете накласти обличчя. Щоб результат був кращим, оберіть відео, де камера не рухається, а фон не змінюється протягом всього часу.
Запишіть набір даних для обличчя, яке ви хочете накласти (з відео-джерела), підбираючи освітлення та вирази, наскільки це можливо.
Прикрийте обличчя інших людей у відео, інакше алгоритм їх теж розпізнає, а це заплутає процес машинного навчання.
Алгоритм обріже обличчя, щоб навчатися на їх основі, та збереже їхні позиції, щоб зрештою точно накласти маску.
Алгоритм створює маску обличчя з відео-джерела, а тоді накладає її на цільове відео.
Програми для обробки відео дозволяють відредагувати маску для кращого поєднання з відео та зробити накладення ще точнішим.
Для експерименту у дві програми завантажили різну кількість кадрів. Видно, що результат кращий, коли вихідного матеріалу більше. Програма більше «знає» про обличчя, і маска виходить більш якісною.
Технічні деталі:
В експерименті використали те саме відео-джерело, яке експортували з різною частотою кадрів — інші умови були однаковими. На одне зображення припадала така сама кількість навчальних циклів, однак у випадку більшого набору даних потрібно було більше часу для навчання. Видно, що алгоритм, в який завантажили більше кадрів, може досягти більш точного результату, який краще збігається з цільовим відео.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Оригінал цільового відео:Sherlock | The Reichenbach Fall | Rooftop Showdown
Ми взяли всі фото однієї з членів нашої команди з Фейсбука та створили діпфейк. Майже на всіх вихідних фото вона посміхалася, тому алгоритм не міг створити маску без посмішки.
Natalie Portman
Pilar
Оригінал цільового відео: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
Технічні деталі
Пояснення іконок
Розмите обличчя: Маска розмита. Видно різницю в чіткості зображення, якщо порівняти маску з рештою відео.
Розбіжності у виразах: Вирази на масці не збігаються з виразами лиця, на яке накладають відео. Риси рухаються неприродньо, їх не видно, вони розмиті чи повторюються.
Межі профілю: Вигляд обличчя збоку неправильний. Маска, створена за допомогою deepfake, викривлена, менш детальна чи неправильно розміщена.
У відео значно більше нюансів обличчя, ніж на фото з Фейсбука. Фото, які учасниця нашої команди розміщує в соцмережах, вона відбирає сама, тому там не вистачає зображень, які потрібні для створення реалістичних виразів під час розмови. За допомогою кращих технологій, ймовірно, вдалося б краще зімітувати вирази обличчя, але без різноманітних вихідних фото переконливий діпфейк створити неможливо.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Навіть коли джерело якісне, зробити діпфейк може бути складно. Наприклад, у фільмах «Індіана Джонс» кадри хаотичні. Порівняно з «чистішими» відео, які ми використовували, алгоритму стає важче.
Технічні деталі
Пояснення іконок
Розмите обличчя: Маска розмита. Видно різницю в чіткості зображення, якщо порівняти маску з рештою відео.
Ефект мигтіння: Видно мигтіння між справжнім обличчям і маскою. В якийсь момент алгоритм не може знайти обличчя і припиняє накладати маску.
Неправильна перспектива: Кут, під яким показано маску, відрізняється від решти відео. Фокусна довжина відео-джерела та цільового відео різна.
Діпфейк зберегли з роздільною здатністю 64 пікселі. Завдяки низькій роздільній здатності алгоритм тренується швидше, бо він має навчитися відтворювати лише зображення з нечіткою роздільною здатністю. У кадрах великим планом низьку роздільну здатність відразу ж видно.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Оригінал цільового відео: Indiana Jones and the Temple of Doom | Rope Bridge Fight
Цей діпфейк зробили з фрагменту ток-шоу, в якому Білл Гейдер пародіює Арнольда Шварценеггера. Завдяки використанню якісного вихідного матеріалу зі Шварценеггером результат вийшов переконливий.
Bill Hader
Arnold Schwarzenegger
Оригінал цільового відео: Bill Hader Presents: Schwarzenegger Baby
Джерело: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Технічні деталі
Пояснення іконок
Загородження маскою: Коли перед обличчям з’являється об’єкт, маска його спотворює чи загороджує.
Поєднання облич, тон шкіри та роздільна здатність якісні. Через кадр дальнього плану важко помітити якісь неточності. Обробили відео професійно. Єдине, що наводить на думку про діпфейк, — коли Гейдер проводить пальцем перед обличчям, і палець зникає за маскою. Різниця в чіткості та куті, під яким розміщено палець, вказує, що автор діпфейку старався приховати цей недолік під час обробки відео.
Для цього експерименту одна модель навчалась протягом чотирьох годин, а інша — протягом 48 годин. Другій моделі вдалося більш детально відтворити обличчя та зробити його більш тривимірним.
Технічні деталі
Від часу навчання залежить, скільки разів алгоритм обробить зображення. Цей процес включає створення обличчя (чи цифрової маски), порівняння з вихідним зображенням та редагування, щоб збільшити подібність маски до джерела. Модель таким чином обробляє всі зображення, а тоді починає все знову. Швидкість роботи залежить від потужності комп’ютера.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Оригінал цільового відео: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Для цього експерименту ми самі зняли відео-джерело та цільове відео. Методи алгоритму добре видно. H128 створює квадратну маску, а SAEHD краще поєднує обличчя.
Arthur
Andrej
Технічні деталі
Н128 — «легша» модель, яка швидше досягає результату. SAEHD — точніша маска, вона краще справляється з рукою та краще змішує різні тони залежно від світла. Схоже, що Н128 краще навчена створювати обличчя — маска чіткіша, стабільніша і має більш реалістичний вигляд зі змінами руху та перспективи. Однак експерти стверджують, що якщо дати SAEHD більше часу на навчання, вона зрештою досягне кращого результату, ніж Н128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Увага: діпфейки можуть бути якісні, а розпізнати їх іноді важко. Ми вивчали заміщення обличчя, але діпфейки також використовують для реконструкції — створення відео, де людина нібито щось говорить.
Технічні деталі
Реконструкція потребує більшої потужності комп’ютера, але її набагато важче розпізнати. Чимало труднощів з вихідним матеріалом не стосуються реконструкції, але алгоритм працює подібним чином. Реконструйовані риси обличчя просто будуть трохи розмиті й не такі детальні.
Звертайте увагу на аудіо та шукайте недоліки в синхронізації руху губ із мовленням. Ви вже знаєте, як це працює, тож можете поміркувати, чи легко таке відео використати для відтворення обличчя та чи підходить воно для можливого діпфейку. Якщо сумніваєтесь, завжди варто перевірити джерело відео.