Deep

fake

Lab

Deepfakes nejsou žádné čáry.

Zjistěte, jak deepfakes fungují, a naučte se je vizuálně rozpoznávat na základě příkladů z našeho praktického výzkumu a z různých webových stránek.

01. Tesla Baby

Podívejme se na populární příklad z internetu.

Na tomto videu byla tvář dítěte překryta tváří Elona Muska. Tento typ překrytí je nejčastější metoda deepfakes. Při bližším zkoumání vám neunikne, že přechody jsou neostré a barva pleti odlišná.

Technické údaje

Vizuální vady

Deepfake je vytvořen počítačovým programem, který se sám naučí analýzou řady snímků určité osoby, jak znovu vytvořit určitou tvář. Program překryje nově vytvořenou tváří původní obličej – na způsob digitální masky. Stopy masky lze vidět na tomto videu.

Cílové video

Zdrojové video

Deepfake cílové video: YouTube | AndrewSchrock | Cutest Baby Montage Ever.

Deepfake zdrojové video: YouTube | TheFakening | Baby Elon Musk Montage Deepfake

02. Zkuste to sami

Můžete si to vyzkoušet sami. Ukážeme vám jak.

Deepfake videa lze vytvořit na domácích počítačích, ale potřebujete výkonnou grafickou kartu. Toto video zachycuje náš první pokus, který ukazuje, proč je důležité používat vhodná zdrojová videa.

Shia LaBeouf

Pilar

Zdrojové video: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech

Technické údaje

Vysvětlení k ikonám

Nesoulad barvy pleti: Mezi maskou a cílovým obličejem je rozdíl v odstínu pleti. Obličej působí, jako by na něm byla vrstva různých barev, jsou znatelné přechody a skvrny.

Nesoulad výrazu: Výrazy na deepfake videu neodpovídají výrazům cílové tváře. Obličejové rysy jsou nepřirozené a potlačené, buď rozostřené, nebo replikované.

Viditelné přechody: Jsou znatelné přechody masky, kolem obličeje jsou totiž buď příliš ostré, nebo rozostřené.

Snímky k trénování algoritmu postrádaly vhodné výrazy obličeje, aby bylo možné věrohodně překrýt obličej Shii LaBeufa, a neobsahovaly ani záběry jeho obličeje z profilu. Není-li neuronová síť na tyto situace patřičně natrénována, nedokáže vytvořit přesnou digitální masku. Všimněte si hercových úst za digitální maskou, tvář na videu má tak ústa zdvojená.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Postup

Jak tedy deepfake vytvoříme?

Potřebujete dvě videa: zdroj a cíl. Program se trénuje pomocí obou videí. Ze zdroje vytvoří masku, kterou se překryje cíl.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours

Zdroj: The Devil Wears Prada | Andy's Interview

Původní video

Datová sada

Maska

Uvedení do souladu

Deepfake

Postprodukce

Vyberte cílové video, na kterém chcete překrýt tvář. Výběr stabilního videa s ustáleným pozadím přinese lepší výsledek.

04. Data pro trénování algoritmu

Co se stane, když programu poskytneme více dat? Budou výsledky lepší?

Při tomto experimentu byly dvěma programům přiděleny odlišné počty snímků. Více zdrojového materiálu jasně přináší lepší výsledek. Model měl více dat k obličejovým rysům a vytvořil lepší masku.

Technické údaje

Tento experiment využil stejný zdroj exportovaný při dvou různých snímkových frekvencích – oba modely byly trénovány se stejným vybavením studia. Počet tréninkových cyklů na jeden snímek je stejný, ale doba tréninku byla u větší datové sady delší. Algoritmus trénovaný s větším počtem snímků přináší výsledky, které lépe odpovídají cíli.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

Cíl: Sherlock | The Reichenbach Fall | Rooftop Showdown

05. Podvody na sociálních sítích

Nakolik jste zranitelní? Dokážeme vám odcizit obsah na sociálních sítích a vytvořit kvalitní deepfake?

Vzali jsme z Facebooku všechny snímky jedné členky našeho týmu a vytvořili jsme deepfake. Téměř na všech zdrojových obrázcích se usmívala, takže algoritmus nemohl vygenerovat masku bez úsměvu.

Natalie Portman

Pilar

Cíl: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin

Technické údaje

Vysvětlení ikon

Rozostřená tvář: Maska je rozostřená. Mezi maskou a zbytkem videa je rozdíl v ostrosti nebo rozlišení.

Nesoulad výrazu: Výrazy na deepfake videu neodpovídají výrazům tváře na cílovém videu. Obličejové rysy jsou nepřirozené a potlačené, buď rozostřené nebo replikované.

Přechody profilu: Boční pohled na obličej působí nevěrohodně. Maska deepfake videa je nekvalitní, s nedostatečnými detaily nebo nesprávně zarovnaná.

Na videu je mnohem více nuancí obličeje než na snímcích z Facebooku. Snímky na sociálních sítích byly vybrány automaticky, chybí tedy obrazový materiál potřebný k vytvoření realistického výrazu tváře při řečovém projevu. Kvalitnější technologie dokážou vytvořit výraz tváře uměle, bez pestřejšího zdrojového materiálu však nelze vytvořit něco přesvědčivého.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Výběr cíle

Viděli jsme, nakolik je při trénování algoritmu důležitý zdroj. A co cílové video?

Deepfake může být těžké vytvořit i s kvalitním zdrojem. Indiana Jones obsahuje chaotické záběry. Ve srovnání s kvalitnějšími videi, která jsme použili dříve, má s ním algoritmus problém.

Technické údaje

Vysvětlení ikon

Rozostřená tvář: Maska je rozostřená. Mezi maskou a zbytkem videa je rozdíl v ostrosti nebo rozlišení.

Efekt mihotání okének: Mezi tváří na původním a deepfake videu dochází k mihotání okének. Algoritmus nedokáže rozpoznat obličej a na chvíli přestane vytvářet masku.

Chybná perspektiva: Deepfake má jinou perspektivu než zbytek videa. Zdrojové a cílové video se liší ohniskovou vzdáleností.

Deepfake video bylo exportováno s rozlišením 64 px. Díky nižšímu rozlišení bylo trénování algoritmu méně časově náročné, protože model se musel naučit pouze vytváření obrazu s nízkým rozlišením. U záběrů obličeje zblízka je nízké rozlišení patrné.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

Cíl: Indiana Jones and the Temple of Doom | Rope Bridge Fight

07. Nemrkejte

Někdy obě videa prostě jen splynou. Na tomto videu cíl dokonce napodobuje novou tvář.

Toto deepfake video bylo vytvořeno z části talk show, kde Bill Hader napodobuje Arnolda Schwarzeneggera. Díky použití vhodného zdrojového materiálu pro Schwarzeneggera jsou výsledky přesvědčivé.

Bill Hader

Arnold Schwarzenegger

Cíl: Bill Hader Presents: Schwarzenegger Baby

Zdroj: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]

Technické údaje

Vysvětlení ikon

Mísení tváří, tón pleti a rozlišení jsou kvalitní. Záběr je zdálky, tlumí neostrost. Postprodukce byla provedena odborně. Manipulace je zřejmá, až když Bill Hader pohne prstem před obličejem a ten zmizí za maskou. Z rozdílu v ostrosti a úhlu je jasné, že se tvůrce pokusil postprodukcí problém zakrýt.

08. Čas hraje důležitou roli

Co se stane, když algoritmu dáme větší prostor k trénování na zdrojovém obsahu? Zlepší se výsledky?

Při tomto experimentu byl jeden model trénován čtyři hodiny a druhý 48 hodin. 48hodinové trénování přineslo detailní vykreslení obličeje a lepší parametry trojrozměrné tváře.

Technické údaje

Doba trénování souvisí s počtem zpracování snímků algoritmem. Proces zahrnuje vytvoření obličeje (tj. digitální masky), jeho porovnání se zdrojovým obrazem a následné úpravy za účelem zdokonalení podobnosti masky se zdrojem. Model prochází tímto cyklem jednou u všech zdrojových snímků a vše se opakuje. Potřebný čas závisí na výkonu počítače.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

Constance Wu

Yueling

Cíl: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means

09. Algoritmy

Poslední experiment. Jak různé algoritmy reagují na určité podmínky?

Pro tento experiment jsme zdrojové i cílové video vytvořili sami. Metody algoritmu jsou jasně patrné. Model H128 vytváří čtvercovou masku, modelu SAEHD se podařilo tvář vystihnout lépe.

Arthur

Andrej

Technické údaje

H128 je odlehčenější model. Kvalitních výsledků dosahuje rychleji. Přesnější maska SAEHD si lépe poradí s pažemi a adaptací světelných podmínek. Zdá se, že H128 je lépe trénován na generování obličeje: maska má ostřejší kontury, je stabilnější a lépe funguje při změnách pohybu a perspektivy. Odborníci však tvrdí, že po delší době tréninku SAEHD výkon H128 překoná.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Nesedněte na lep

Podívejme se, co se fakticky děje s deepfake videi.

Nesedněte na lep: deepfakes mohou být kvalitní a někdy je lze těžko odhalit. Zabývali jsme se překrytím tváře, deepfakes však lze použít i k imitaci mimických gest – třeba simulaci řečového projevu.

Technické údaje

Imitace mimiky vyžaduje vyšší výpočetní výkon, ale je těžší ji rozeznat. Řada výzev spojených se zdrojovými videi se imitace mimiky netýká, ale algoritmus funguje obdobně. Partie s imitovanými gesty budou mírně rozostřené, s méně detaily.

Věnujte pozornost i zvuku a hledejte chyby nebo problémy se synchronizací rtů. Na základě poznatků, které jste na tomto webu získali, si položte otázku, zda je u určitého videa pravděpodobné, že by se mohlo jednat o deepfake a zda jsou pro to vhodné podmínky. Máte-li pochybnosti, vždy prověřte zdroj videa.

Zdroj: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.

Zde je praktické shrnutí dovedností, které jste na tomto webu získali, abyste si mohli videa prověřovat sami.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0