Restarting the experience
Zjistěte, jak deepfakes fungují, a naučte se je vizuálně rozpoznávat na základě příkladů z našeho praktického výzkumu a z různých webových stránek.
Na tomto videu byla tvář dítěte překryta tváří Elona Muska. Tento typ překrytí je nejčastější metoda deepfakes. Při bližším zkoumání vám neunikne, že přechody jsou neostré a barva pleti odlišná.
Technické údaje
Vizuální vady
Nesoulad barvy pleti: Mezi maskou a cílovým obličejem je rozdíl v odstínu pleti. Obličej působí, jako by na něm byla vrstva barev, jsou znatelné přechody a skvrny.
Deepfake je vytvořen počítačovým programem, který se sám naučí analýzou řady snímků určité osoby, jak znovu vytvořit určitou tvář. Program překryje nově vytvořenou tváří původní obličej – na způsob digitální masky. Stopy masky lze vidět na tomto videu.
Cílové video
Zdrojové video
Deepfake cílové video: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Deepfake zdrojové video: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Deepfake videa lze vytvořit na domácích počítačích, ale potřebujete výkonnou grafickou kartu. Toto video zachycuje náš první pokus, který ukazuje, proč je důležité používat vhodná zdrojová videa.
Shia LaBeouf
Pilar
Technické údaje
Vysvětlení k ikonám
Nesoulad barvy pleti: Mezi maskou a cílovým obličejem je rozdíl v odstínu pleti. Obličej působí, jako by na něm byla vrstva různých barev, jsou znatelné přechody a skvrny.
Nesoulad výrazu: Výrazy na deepfake videu neodpovídají výrazům cílové tváře. Obličejové rysy jsou nepřirozené a potlačené, buď rozostřené, nebo replikované.
Viditelné přechody: Jsou znatelné přechody masky, kolem obličeje jsou totiž buď příliš ostré, nebo rozostřené.
Snímky k trénování algoritmu postrádaly vhodné výrazy obličeje, aby bylo možné věrohodně překrýt obličej Shii LaBeufa, a neobsahovaly ani záběry jeho obličeje z profilu. Není-li neuronová síť na tyto situace patřičně natrénována, nedokáže vytvořit přesnou digitální masku. Všimněte si hercových úst za digitální maskou, tvář na videu má tak ústa zdvojená.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Potřebujete dvě videa: zdroj a cíl. Program se trénuje pomocí obou videí. Ze zdroje vytvoří masku, kterou se překryje cíl.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Původní video
Datová sada
Maska
Uvedení do souladu
Deepfake
Postprodukce
Vyberte cílové video, na kterém chcete překrýt tvář. Výběr stabilního videa s ustáleným pozadím přinese lepší výsledek.
Nahrajte si datovou sadu pro obličej, který chcete použít (zdroj), a co nejvíce slaďte osvětlení a výrazy obličeje.
Na cílovém videu zakryjte tváře ostatních lidí, jinak by je algoritmus zachytil a pro tréninkový proces by to bylo matoucí.
Algoritmus ořízne tváře, aby je mohl použít pro vlastní trénování, a uloží jejich polohu, což následně umožní přesně překrýt masku.
Algoritmus vygeneruje masku obličeje ze zdrojového videa a vy ji pak musíte uvést do souladu s cílovým videem.
Software pro úpravu videa vám umožní lépe masku propojit s podkladem a konečný výsledek doladit.
Při tomto experimentu byly dvěma programům přiděleny odlišné počty snímků. Více zdrojového materiálu jasně přináší lepší výsledek. Model měl více dat k obličejovým rysům a vytvořil lepší masku.
Technické údaje
Tento experiment využil stejný zdroj exportovaný při dvou různých snímkových frekvencích – oba modely byly trénovány se stejným vybavením studia. Počet tréninkových cyklů na jeden snímek je stejný, ale doba tréninku byla u větší datové sady delší. Algoritmus trénovaný s větším počtem snímků přináší výsledky, které lépe odpovídají cíli.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Vzali jsme z Facebooku všechny snímky jedné členky našeho týmu a vytvořili jsme deepfake. Téměř na všech zdrojových obrázcích se usmívala, takže algoritmus nemohl vygenerovat masku bez úsměvu.
Natalie Portman
Pilar
Technické údaje
Vysvětlení ikon
Rozostřená tvář: Maska je rozostřená. Mezi maskou a zbytkem videa je rozdíl v ostrosti nebo rozlišení.
Nesoulad výrazu: Výrazy na deepfake videu neodpovídají výrazům tváře na cílovém videu. Obličejové rysy jsou nepřirozené a potlačené, buď rozostřené nebo replikované.
Přechody profilu: Boční pohled na obličej působí nevěrohodně. Maska deepfake videa je nekvalitní, s nedostatečnými detaily nebo nesprávně zarovnaná.
Na videu je mnohem více nuancí obličeje než na snímcích z Facebooku. Snímky na sociálních sítích byly vybrány automaticky, chybí tedy obrazový materiál potřebný k vytvoření realistického výrazu tváře při řečovém projevu. Kvalitnější technologie dokážou vytvořit výraz tváře uměle, bez pestřejšího zdrojového materiálu však nelze vytvořit něco přesvědčivého.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Deepfake může být těžké vytvořit i s kvalitním zdrojem. Indiana Jones obsahuje chaotické záběry. Ve srovnání s kvalitnějšími videi, která jsme použili dříve, má s ním algoritmus problém.
Technické údaje
Vysvětlení ikon
Rozostřená tvář: Maska je rozostřená. Mezi maskou a zbytkem videa je rozdíl v ostrosti nebo rozlišení.
Efekt mihotání okének: Mezi tváří na původním a deepfake videu dochází k mihotání okének. Algoritmus nedokáže rozpoznat obličej a na chvíli přestane vytvářet masku.
Chybná perspektiva: Deepfake má jinou perspektivu než zbytek videa. Zdrojové a cílové video se liší ohniskovou vzdáleností.
Deepfake video bylo exportováno s rozlišením 64 px. Díky nižšímu rozlišení bylo trénování algoritmu méně časově náročné, protože model se musel naučit pouze vytváření obrazu s nízkým rozlišením. U záběrů obličeje zblízka je nízké rozlišení patrné.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Toto deepfake video bylo vytvořeno z části talk show, kde Bill Hader napodobuje Arnolda Schwarzeneggera. Díky použití vhodného zdrojového materiálu pro Schwarzeneggera jsou výsledky přesvědčivé.
Bill Hader
Arnold Schwarzenegger
Technické údaje
Vysvětlení ikon
Zakrytí obličeje: Jestliže se před obličejem vyskytne nějaký předmět, maska jej deformuje nebo zakryje.
Mísení tváří, tón pleti a rozlišení jsou kvalitní. Záběr je zdálky, tlumí neostrost. Postprodukce byla provedena odborně. Manipulace je zřejmá, až když Bill Hader pohne prstem před obličejem a ten zmizí za maskou. Z rozdílu v ostrosti a úhlu je jasné, že se tvůrce pokusil postprodukcí problém zakrýt.
Při tomto experimentu byl jeden model trénován čtyři hodiny a druhý 48 hodin. 48hodinové trénování přineslo detailní vykreslení obličeje a lepší parametry trojrozměrné tváře.
Technické údaje
Doba trénování souvisí s počtem zpracování snímků algoritmem. Proces zahrnuje vytvoření obličeje (tj. digitální masky), jeho porovnání se zdrojovým obrazem a následné úpravy za účelem zdokonalení podobnosti masky se zdrojem. Model prochází tímto cyklem jednou u všech zdrojových snímků a vše se opakuje. Potřebný čas závisí na výkonu počítače.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Pro tento experiment jsme zdrojové i cílové video vytvořili sami. Metody algoritmu jsou jasně patrné. Model H128 vytváří čtvercovou masku, modelu SAEHD se podařilo tvář vystihnout lépe.
Arthur
Andrej
Technické údaje
H128 je odlehčenější model. Kvalitních výsledků dosahuje rychleji. Přesnější maska SAEHD si lépe poradí s pažemi a adaptací světelných podmínek. Zdá se, že H128 je lépe trénován na generování obličeje: maska má ostřejší kontury, je stabilnější a lépe funguje při změnách pohybu a perspektivy. Odborníci však tvrdí, že po delší době tréninku SAEHD výkon H128 překoná.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Nesedněte na lep: deepfakes mohou být kvalitní a někdy je lze těžko odhalit. Zabývali jsme se překrytím tváře, deepfakes však lze použít i k imitaci mimických gest – třeba simulaci řečového projevu.
Technické údaje
Imitace mimiky vyžaduje vyšší výpočetní výkon, ale je těžší ji rozeznat. Řada výzev spojených se zdrojovými videi se imitace mimiky netýká, ale algoritmus funguje obdobně. Partie s imitovanými gesty budou mírně rozostřené, s méně detaily.
Věnujte pozornost i zvuku a hledejte chyby nebo problémy se synchronizací rtů. Na základě poznatků, které jste na tomto webu získali, si položte otázku, zda je u určitého videa pravděpodobné, že by se mohlo jednat o deepfake a zda jsou pro to vhodné podmínky. Máte-li pochybnosti, vždy prověřte zdroj videa.