Restarting the experience

Deep

fake

Lab

"Deepfake" technologijos paslapties atskleidimas

Nustatykite, kaip veikia “deepfake” technologija bei kaip atpažinti šios technologijos pagalba suklastotus vaizdo įrašus (pasinaudojant mūsų atliktais tyrimais ir pavyzdžiais iš interneto).

01. “Tesla” kūdikis

Pažvelkime į populiarų pavyzdį iš interneto.

Šiame vaizdo įraše ant kūdikio veido uždėtas Elono Musko veidas. Toks kito žmogaus veido „priklijavimas“ dažniausiai ir aptinkamas sintetinėse vaizdo klastotėse (arba skaitmeninėse kaukėse). Pažiūrėkite iš arčiau: kraštai neryškūs (išplaukę), o odos atspalvis skiriasi nuo originalaus odos atspalvio.

Techninės detalės

Vaizdiniai neatitikimai

Skaitmeninės kaukės kuriamos kompiuterinės programos pagalba, kuri, išanalizavusi įvairius žmogaus atvaizdus, pati išmoksta sukurti naują veidą, Tada programa „priklijuoja“ sukurtą veidą ant veido vaizdo įraše tarsi skaitmeninę kaukę. Šiame įraše galite atsekti tokios kaukės pėdsakus:

Target Video

Deepfaked Video

“Deepfake” tikslinis vaizdo įrašas: YouTube | AndrewSchrock | Cutest Baby Montage Ever.

“Deepfake” vaizdo šaltinis: YouTube | TheFakening | Baby Elon Musk Montage Deepfake

02. Pasidaryk pats

Galite tai išbandyti namuose. Parodysime, kaip tai padaryti.

“Deepfake“ technologijos pagalba vaizdo įrašus galima sukurti namuose, tik tam reikalinga galinga vaizdo plokštė. Šiame vaizdo įraše - mūsų pirmasis bandymas, kuriame atskleidžiama, kodėl svarbu naudoti tinkamus pirminius (originalius) vaizdo įrašus.

Techninės detalės

Vaizdiniai neatitikimai

Vaizduose, kurie buvo naudojami algoritmo parengimui, nebuvo tinkamų veido išraiškų, kuriomis būtų galima uždengti amerikiečių aktoriaus Shia LaBeouf veidą vaizdo įraše. Aktoriaus profilyje nebuvo ir nufilmuotų jo veido atvaizdų. Atkreipkite dėmesį į tai, kaip Shia burna „išlenda“ iš kaukės - matyti dvi burnos.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Procesas

Kaip sukurti sintetinę vaizdo klastotę?

Reikalingi du vaizdo įrašai: originalus ir tikslinis. Programa pati panaudoja abu ir sukuria kaukę iš šaltinio vaizdo medžiagos. Šią kaukę galima uždėti ant kuriamo vaizdo įrašo, panaudojant redagavimo priemonę.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Tikslinis vaizdo ša: The Devil Wears Prada | Andy's Interview

Originalas

Duomenų rinkinys

Kaukė

Derinimas

Skaitmeninė kaukė

Post'as

Išsirinkite tikslinį vaizdo įrašą, kuriame norite uždėti („užklijuoti“) veidą. Pasirinkę vaizdo įrašą su tolygiu fonu, gausite geresnį rezultatą.

04. Mokymo duomenys

Kas nutiks, jei programai suteiksime daugiau turinio? Ar ji pagerės?

Šiame eksperimente dviem programoms duotas skirtingas atvaizdų skaičius. Kuo daugiau pirminės medžiagos, tuo geresnis rezultatas. Šis modelis turėjo daugiau informacijos apie veidą, todėl ir kaukė sukurta geresnė.

Techninės detalės

Eksperimentas atliktas, naudojant tą pačią pirminę vaizdo medžiagą, atsiųstą dviem skirtingais kadrų dažniais – abu modeliai buvo rengiami toje pačioje studijos aplinkoje. Bandymų ciklų skaičius vienam vaizdui yra vienodas, bet parengimas trunka ilgiau, esant didesniam duomenų rinkiniui. Aiškiai matyti, kad algoritmas, išbandęs daugiau vaizdų, gali pateikti tobulesnį ir tikslą geriau atitinkantį rezultatą.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

Originalus tikslinis vaizdo įrašas: Sherlock | The Reichenbach Fall | Rooftop Showdown

05. Socialinis sukčiavimas

Ar lengvai pasiduodate kitų įtakai? Ar galime pavogti jūsų socialinės žiniasklaidos turinį ir sukurti gerą sintetinę vaizdo klastotę?

Visus feisbuko vaizdus paėmėme iš vieno mūsų grupės narių ir sukūrėme sintetinę vaizdo klastotę. Beveik visuose pirminiuose vaizduose žmogus juokėsi, todėl algoritmas negalėjo sukurti „nesijuokiančios“ kaukės.

Natalie Portman

Pilar

Techninės detalės

Vaizdiniai neatitikimai

Vaizdo įraše yra žymiai daugiau veido išraiškų (mimikų), lyginant su atvaizdais, kuriuos paėmėme iš feisbuko. Mūsų grupės narys pats pasirinko nuotraukas iš socialinės žiniasklaidos, todėl jose nėra akimirkų, kurios reikalingos, norint sukurti kalbėjimui būtinas tikroviškas veido išraiškas. Nors geresnių technologijų pagalba veido mimikas galima sufabrikuoti, be pirminės medžiagos variantų sukurti ką nors įtikinamo neįmanoma.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Tikslo pasirinkimas

Matėme, kad ruošiant algoritmą, labai svarbi yra pirminė medžiaga. O kaip su tiksliniu vaizdo įrašu?

Kuriant sintetinę vaizdo klastotę, problemų gali kilti ir turint gerą pirminę medžiagą. Filme „Indiana Jones“ („Indiana Džounsas“) yra nemažai chaotiškų kadrų. Lyginant su aiškesne vaizdo medžiaga, kurią naudojome anksčiau, algoritmui šiuo atveju sunkiau „išsilaikyti“.

Techninės detalės

Vaizdiniai neatitikimai

Sintetinė vaizdo klastotė išsiųsta su 64 px rezoliucija (skiriamąja geba). Apatinė rezoliucija reiškia, kad algoritmo parengimui prireikė mažiau laiko, nes modeliui tik reikėjo išmokti sukurti žemos rezoliucijos vaizdą. Filmuojant iš arti, akivaizdi žema skiriamoji geba.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

Originalus tikslinis vaizdo įrašas: Indiana Jones and the Temple of Doom | Rope Bridge Fight

07. Nemirksėk

Kartais abu atvaizdai tarsi susilieja. Šiame video tikslinis veidas netgi imituoja savo naują veidą

Sintetinės vaizdo klastotės video sukurtas, „ištraukus“ pokalbių šou segmentą, kuriame Billas Haderis apsimeta Arnoldu Schwarzeneggeriu. Panaudojus tinkamą Arnoldo Schwarzeneggerio pirminę medžiagą, gauti įtikinantys rezultatai.

Bill Hader

Arnold Schwarzenegger

Techninės detalės

Vaizdiniai neatitikimai

Veidai susilieję, odos atspalvis ir rezoliucija (skiriamoji geba) puikūs. Kadangi filmuota iš toli, susiliejusį vaizdą sunku įžiūrėti. Galutinis produktas sukurtas profesionaliai. Vienintelė netyčia atskleista detalė – kai Billas Haderis judina pirštą priešais veidą ir jis pradingsta už kaukės. Aštrumo skirtumas ir piršto kampas leidžia manyti, kad kūrėjas bandė paslėpti galutinio produkto efektą.

08. Laikas labai svarbus

O jeigu algoritmui leisime ilgiau „pasidarbuoti“ prie pirminio turinio? Ar rezultatai bus geresni?

Šio eksperimento metu vienas modelis buvo rengiamas keturias, kitas – 48 valandas. 48 valandų modelio rezultatai - ryškesni veido bruožai ir labiau trimatis veidas.

Techninės detalės

Mokymosi laikas susijęs su tuo, kiek kartų algoritmas apdorojo vaizdus. Šis procesas apima: veido (ar skaitmeninės kaukės) sukūrimą, jo palyginimą su pirminiu vaizdu ir korekcijas, darančias kaukę panašesnę į pirminį atvaizdą. Šį ciklą modelis „įveikia“ vieną kartą su visais pirminiais vaizdais ir vėl pradeda iš naujo. Laiko trukmė priklauso nuo kompiuterio galingumo.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

Constance Wu

Yueling

09. Algoritmai

Paskutinis eksperimentas. Kaip skirtingi algoritmai reaguoja į tam tikras sąlygas?

Šiam eksperimentui patys sukūrėme tiek pirminę, tiek ir tikslinę vaizdo medžiagą. Algoritmo metodai aiškiai matomi. H128 sukuria kaukę, tuo tarpu SAEHD dar labiau priderina veidą.

Arthur

Andrej

Techninės detalės

H128 yra lengvesnis iš dviejų modelių. Jį taikant, galima greičiau pasiekti kokybiškų rezultatų. Tikslesnę SAEHD kaukę lengviau kurti rankiniu būdu, žaidžiant su apšvietimu. H128 atrodo efektyvesnis kuriant veidą: kaukė yra ryškesnė, stabilesnė ir geriau funkcionuoja, judant ir keičiant perspektyvą. Ekspertai mano, kad po ilgesnių bandymų SAEHD pralenks H128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Žinokite

Pažiūrėkime, kas iš tikrųjų vyksta su sintetinių vaizdo klastočių (angl. deepfake) įrašais.

Šiais laikais sintetinės vaizdo klastotės gali būti labai kokybiškos ir sunkiai pastebimos. Nors skyrėme dėmesį tik veidų pakeitimui, sintetinėmis vaizdo klastotėmis galima imituoti ir veido judesius. Tada atrodo, kad žmogus kažką pasakė. Žinokite apie šią technologiją ir atminkite jums parodytus jos požymius.

Techninės detalės

Veido judesių imitavimą, kuriam reikia daug galingesnių kompiuterių, kur kas sunkiau atpažinti. Daug iššūkių, susijusių su pirminiais vaizdo įrašais, neturi įtakos judesių imitavimui, tačiau algoritmas veikia panašiai: atkurtos veido dalys bus kiek neryškios ir ne tokios detalios.

Atkreipkite dėmesį ir į garsą: ieškokite trūkumų ar lūpų sinchronizavimo problemų. Naudodamiesi šioje svetainėje sužinota informacija, paklauskite savęs, ar tikėtina, kad vaizdo įrašą buvo norima suklastoti, ar abejojate jo tikrumu, ar yra tinkamos sąlygos galimai sintetinei vaizdo klastotei, ir visada tikrinkite vaizdo įrašo šaltinį.

Pirminis sintetinių vaizdo klastočių įrašas: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.

Čia patogi įgūdžių, kuriuos įgijote šioje svetainėje, santrauka, kad galėtumėte patys peržiūrėti vaizdo įrašus.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0