Restarting the experience
Saznanjima našeg praktičnog istraživanja i primjerima s interneta otkrijte kako deepfakes funkcioniraju te po kojim ih se vizualnim tragovima može identificirati.
U ovom je videu na bebino lice položeno ono Elona Muska. Ovakav tip zamjene lica najčešći je način upotrebe deepfake videa. Pogledajte bolje: rubovi nisu bistri, a i boja kože je različita.
Tehnički detalji
Vizualni nedostac
Boja kože se ne podudara: Vidljiva je razlika u boji kože između maske i ciljanog lica. Lice izgleda kao da je prekriveno slojem boja, a vidljivi su i rubovi ili mrlje.
Deepfake nastaje računalnim programom koji samog sebe može naučiti kako reproducirati lice analizirajući mnoštvo slika dotične osobe. Program tada na postojeći video polaže lice koje je kreirao – kao nekakvu digitalnu masku. Tragovi takve maske primjetni su u sljedećem videu.
Ciljani video
Deepfaked Video
Deepfake ciljani video: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Deepfake izvorni video: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Deepfake snimke mogu se napraviti na kućnim računalima, ali je za to potreba jaka grafička kartica. U ovom videu prikazan je naš prvi pokušaj koji pokazuje važnost korištenja prikladne izvorne video snimke.
Shia LaBeouf
Pilar
Izvor za ciljani vide: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech
Tehnički detalji
Vizualni nedostac
Boja kože se ne podudara: Vidljiva je razlika u boji kože između maske i ciljanog lica. Lice izgleda kao da je prekriveno slojem boja, a vidljivi su i rubovi ili mrlje.
Nepodudarni izrazi lica: Izrazi lica u deepfake videu ne podudaraju se s ciljanim licem. Značajke lica ne pomiču se prirodno i nevidljive su, mutne ili reproducirane.
Vidljivi rubovi: Uočavaju se rubovi maske kao oštri ili mutni rubovi oko lica.
Slike koje smo koristili za trening algoritma nisu sadržavale potrebne izraze lica koji bi prekrili Shiaino lice u ovom videu niti su sadržavale snimke njegovog lica u profilu. Ako se neuronsku mrežu ne istrenira za takve situacije, ona ne može proizvesti točnu digitalnu masku. Primijetite kako se Shiaina usta pojavljuju od ispod maske, što rezultira dupliciranim ustima.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Trebate dva videa: izvorni i ciljani. Softver će istrenirati samog sebe koristeći obje snimke te kreirati masku iz izvornog videa koju će prevući preko ciljanog videa koristeći softver za montažu.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Originalni ciljani video: The Devil Wears Prada
| Andy's Interview
Original
Podaci
Maska
Podudaranje
Deepfake
Postprodukcija
Odaberite ciljani video u koji želiš umetnuti nečije lice. Najbolji rezultati postižu se odabirom videa s jednoličnom pozadinom.
Snimite set podataka za lice koje želiš umetnuti (izvor) vodeći računa da se koliko je god više moguće podudaraju osvijetljenje i izrazi lica.
Prekrijte lica drugih ljudi u ciljanom videu jer će inače algoritam i njih uzeti u obzir i zbuniti se prilikom učenja.
Algoritam će izrezati lica da bi ih koristio za učenje te pohraniti njihovu poziciju kako bi kasije mogao precizno postaviti masku.
Algoritam generira masku lica iz izvornog videa koju zatim treba poravnati s ciljanim videom.
Softverom za montažu video snimaka postići ćete da se maska bolje uklopi te poboljšati krajni rezultat.
U ovom su eksperimentu dva računalna programa dobila različit broj slika. Više materijala očito daje bolji rezultat. Model je imao više podataka o licu pa je stoga kreirao i bolju masku.
Tehnički detalji
Ovaj je eksperiment napravljen s istim izvornim videom izvedenim u dvije različite frekvencije slika - oba su modela trenirana na istoj opremi s istim postavkama. Broj ciklusa treninga po slici je bio isti, ali je trajanje treninga bilo duže kod većeg seta podataka. Jasno se vidi da algoritam koji je učio s većim brojem slika daje rafiniraniji rezultat koji se bolje podudara s ciljanim videom.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Originalni ciljani video: Sherlock | The Reichenbach Fall | Rooftop Showdown
Uzeli smo sve slike s Facebook profila članice našeg tima i kreirali deepfake. U skoro svim izvornim slikama ona se smiješi te stoga algoritam nije morao kreirati masku bez osmjeha.
Natalie Portman
Pilar
Originalni ciljani video: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
Tehnički detalji
Vizualni nedostac
Mutno lice: Maska je mutna. Primjetna je razlika u oštrini slike ili rezoluciji između maske i ostatka videa.
Nepodudarni izrazi lica: Izrazi lica u deepfake videu ne podudaraju se s ciljanim licem. Značajke lica ne pomiču se prirodno i nevidljive su, mutne ili reproducirane.
Rub profila: Lice u profilu ne izgleda ispravno. Deepfake maska je neispravna, nedostaje joj detalja ili se pak ne poklapa točno s ostatkom videa.
Video sadrži mnogo više nijansi izraza lica nego slike koje smo uzeli s Facebooka. Slike s društvenih mreža naše članice odabrala je ona sama, pa zato nedostaje onih slika potrebnih za kreiranje realističnih izraza lica pri govoru. Iako bi bolja tehnologija možda mogla fabricirati te izraze lica, bez raznolikog izvornog materijala nemoguće je napraviti nešto uvjerljivo.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Čak i s kvalitetnim izvornim materijalnom kreirati deepfake može biti teško. Indiana Jones sadrži kaotične kadrove. U usporedbi s ćišćim video snimkama korištenim ranije, algoritmu je sada teže.
Tehnički detalji
Vizualni nedostac
Mutno lice: Maska je mutna. Primjetna je razlika u oštrini slike ili rezoluciji između maske i ostatka videa.
Efekt treperenja: Vidljivo je treperenje između originalnog i deepfake lica. Algoritam ne prepoznaje lice te na trenutak prestaje generirati masku.
Pogrešna perspektiva: Deepfake ima drukčiju perspektivu od ostatka videa. Izvorni i ciljani video imaju različitu žarišnu duljinu.
Deepfake je izveden u rezoluciji od 64 px. Niža rezolucija znači da je za trening algoritma trebalo manje vremena jer je model trebao naučiti samo kako kreirati sliku niske rezolucije. U krupnim kadrovima niska je rezolucija evidentna.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Original ciljani video: Indiana Jones and the Temple of Doom | Rope Bridge Fight
Ovaj deepfake napravljen je od isječka iz talk showa u kojem Bill Hader imitira Arnolda Schwarzeneggera. Rezultat je uvjerljiv zbog korištenja prikladnog izvornog materijala za Arnolda Schwarzeneggera.
Bill Hader
Arnold Schwarzenegger
Original ciljani video: Bill Hader Presents: Schwarzenegger Baby
Izvorni deepfake video: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Tehnički detalji
Vizualni nedostac
Zaklanjanje lica: Kad objekti prolaze ispred lica, dolazi do distorzije maske ili maska prekrije objekt.
Stapanje lica, boja kože i rezolucija vrlo su dobri. Video je snimljen izdaleka pa je teško primijetiti je li nešto mutno. Postprodukcija je obavljena stručno. Jedino što odaje deepfake jest ono kad Bill Hader pomakne prst ispred svog lica, a on nestane iza maske. Razlika u oštrini i kutu prsta sugerira da je kreator pokušao sakriti ovaj efekt u postprodukciji.
Za ovaj eksperiment jedan se model trenirao četiri sata, a drugi 48. 48-satni model dao je više detalja na licu te je ono djelovalo trodimenzionalnije.
Tehnički detalji
Trajanje učenja povezano je s time koliko puta algoritam procesira slike. Proces se sastoji od kreiranja lica (ili digitalne maske), uspoređivanja tog lica s izvornom slikom te modifikacija u cilju poboljšanja sličnosti maske s izvornom slikom. Model prolazi kroz taj ciklus jednom za sve izvorne slike, a onda ga ponavlja. Koliko to vremena traje, ovisi o jačini računala koje se koristi.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Original ciljani video: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Za ovaj eksperiment sami smo kreirali i izvorni i ciljani video. Metode algoritma jasno su vidljive. H128 kreira kvadratnu masku, dok se SAEHD bolje podudara s licem.
Arthur
Andrej
Tehnički detalji
Od ova dva modela, H128 je jednostavniji. Kvalitetne rezultate postiže brže. Preciznija maska SAEHD modela bolje se nosi s rukom i stapa se s osvjetljenjem. Čini se da je H128 bolje istreniran za kreiranje lica: maska je oštrija, stabilnija i daje bolje rezultate kod kretnji i promjena u perspektivi. Međutim, stručnjaci kažu da će uz dulji trening SAEHD nadići H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Osvijestite se: deepfakes mogu biti kvalitetni i teško prepoznatljivi. Osim za zamjenu lica, mogu se koristiti i za animaciju lica – što stvara privid da je neka osoba nešto izjavila, a nije.
Tehnički detalji
Animacija lica zahtijeva mnogo više računalnog kapaciteta i mnogo ju je teže prepoznati. Mnogi izazovi koje postavljaju izvorne video snimke ne vrijede kad je riječ o animaciji, no algoritmi se ponašaju na sličan način. Rekreirani dijelovi lica bit će malo zamućeni i imat će manje detalja.
Također, obratite pažnju na audio i provjerite ima li nedostataka u sinkronizaciji zvuka i kretnji ustiju. Uz uvid stečen na ovim web stranicama, razmislite je li izgledno da je neki video zapravo ciljani video te jesu li uvjeti prikladni za mogući deepfake. Ako posumnjate da se radi o deepfake videu, uvijek provjerite odakle on dolazi.
Izvorni video za deepfake: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.