Restarting the experience
Nustatykite, kaip veikia “deepfake” technologija bei kaip atpažinti šios technologijos pagalba suklastotus vaizdo įrašus (pasinaudojant mūsų atliktais tyrimais ir pavyzdžiais iš interneto).
Šiame vaizdo įraše ant kūdikio veido uždėtas Elono Musko veidas. Toks kito žmogaus veido „priklijavimas“ dažniausiai ir aptinkamas sintetinėse vaizdo klastotėse (arba skaitmeninėse kaukėse). Pažiūrėkite iš arčiau: kraštai neryškūs (išplaukę), o odos atspalvis skiriasi nuo originalaus odos atspalvio.
Techninės detalės
Vaizdiniai neatitikimai
Odos atspalvio neatitikimas: Skiriasi tikrojo veido ir kaukės odos atspalvis. Atrodo, kad veidas padengtas spalvų sluoksniu, matyti kaukės ribos ir dėmės.
Skaitmeninės kaukės kuriamos kompiuterinės programos pagalba, kuri, išanalizavusi įvairius žmogaus atvaizdus, pati išmoksta sukurti naują veidą, Tada programa „priklijuoja“ sukurtą veidą ant veido vaizdo įraše tarsi skaitmeninę kaukę. Šiame įraše galite atsekti tokios kaukės pėdsakus:
Target Video
Deepfaked Video
“Deepfake” tikslinis vaizdo įrašas: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
“Deepfake” vaizdo šaltinis: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
“Deepfake“ technologijos pagalba vaizdo įrašus galima sukurti namuose, tik tam reikalinga galinga vaizdo plokštė. Šiame vaizdo įraše - mūsų pirmasis bandymas, kuriame atskleidžiama, kodėl svarbu naudoti tinkamus pirminius (originalius) vaizdo įrašus.
Shia LaBeouf
Pilar
Tikslinis vaizdo ša: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech
Techninės detalės
Vaizdiniai neatitikimai
Odos atspalvio neatitikimas: Skiriasi tikrojo veido ir kaukės odos atspalvis. Atrodo, kad veidas padengtas spalvų sluoksniu, matyti kaukės ribos ir dėmės.
Veido išraiškų neatitikimai: Veido išraiškos sintetinėse kaukėse neatitinka tikrojo veido mimikų. Šios išraiškos ir judesiai nenatūralūs, neryškūs, pasikartojantys.
Matomi kraštai (ribos): Kaukės kraštai (ribos) aiškiai matomi: arba ryškūs, arba „išplaukę“.
Vaizduose, kurie buvo naudojami algoritmo parengimui, nebuvo tinkamų veido išraiškų, kuriomis būtų galima uždengti amerikiečių aktoriaus Shia LaBeouf veidą vaizdo įraše. Aktoriaus profilyje nebuvo ir nufilmuotų jo veido atvaizdų. Atkreipkite dėmesį į tai, kaip Shia burna „išlenda“ iš kaukės - matyti dvi burnos.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Reikalingi du vaizdo įrašai: originalus ir tikslinis. Programa pati panaudoja abu ir sukuria kaukę iš šaltinio vaizdo medžiagos. Šią kaukę galima uždėti ant kuriamo vaizdo įrašo, panaudojant redagavimo priemonę.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Tikslinis vaizdo ša: The Devil Wears Prada | Andy's Interview
Originalas
Duomenų rinkinys
Kaukė
Derinimas
Skaitmeninė kaukė
Post'as
Išsirinkite tikslinį vaizdo įrašą, kuriame norite uždėti („užklijuoti“) veidą. Pasirinkę vaizdo įrašą su tolygiu fonu, gausite geresnį rezultatą.
Surinkite veido, kurį norite „užklijuoti“ (pirminė medžiaga), duomenis, parinkdami kaip galima tikslesnį apšvietimą ir veido išraiškas.
Kitų žmonių veidus kuriamoje vaizdo medžiagoje uždenkite, antraip algoritmas juos atsirinks ir bandymų procesas bus sutrikdytas.
Kitų žmonių veidus kuriamoje vaizdo medžiagoje uždenkite, antraip algoritmas juos atsirinks ir bandymų procesas bus sutrikdytas.
Algoritmas surenka (generuoja) veido kaukę iš pirminės vaizdo medžiagos. Jums šią kaukę reikia tiksliai „užklijuoti“ ant veido tiksliniame vaizde.
Vaizdo įrašo redagavimo programa leis geriau priderinti kaukę ir patikslinti galutinį rezultatą.
Šiame eksperimente dviem programoms duotas skirtingas atvaizdų skaičius. Kuo daugiau pirminės medžiagos, tuo geresnis rezultatas. Šis modelis turėjo daugiau informacijos apie veidą, todėl ir kaukė sukurta geresnė.
Techninės detalės
Eksperimentas atliktas, naudojant tą pačią pirminę vaizdo medžiagą, atsiųstą dviem skirtingais kadrų dažniais – abu modeliai buvo rengiami toje pačioje studijos aplinkoje. Bandymų ciklų skaičius vienam vaizdui yra vienodas, bet parengimas trunka ilgiau, esant didesniam duomenų rinkiniui. Aiškiai matyti, kad algoritmas, išbandęs daugiau vaizdų, gali pateikti tobulesnį ir tikslą geriau atitinkantį rezultatą.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Originalus tikslinis vaizdo įrašas: Sherlock | The Reichenbach Fall | Rooftop Showdown
Visus feisbuko vaizdus paėmėme iš vieno mūsų grupės narių ir sukūrėme sintetinę vaizdo klastotę. Beveik visuose pirminiuose vaizduose žmogus juokėsi, todėl algoritmas negalėjo sukurti „nesijuokiančios“ kaukės.
Natalie Portman
Pilar
Originalus tikslinis vaizdo įrašas: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
Techninės detalės
Vaizdiniai neatitikimai
Neryškus veidas: Kaukė neryški, „išplaukusi“. Skiriasi kaukės ir kitos video medžiagos rezoliucija (skiriamoji geba) ar aštrumas.
Veido išraiškų neatitikimai: Veido išraiškos sintetinėse kaukėse neatitinka tikrojo veido mimikų. Šios išraiškos ir judesiai nenatūralūs, neryškūs, pasikartojantys.
Profilio linijos: Neryški profilio linija. Skaitmeninė („deepfake“) kaukė sudarkyta, joje mažiau detalių arba ji netinkamai „priklijuota“.
Vaizdo įraše yra žymiai daugiau veido išraiškų (mimikų), lyginant su atvaizdais, kuriuos paėmėme iš feisbuko. Mūsų grupės narys pats pasirinko nuotraukas iš socialinės žiniasklaidos, todėl jose nėra akimirkų, kurios reikalingos, norint sukurti kalbėjimui būtinas tikroviškas veido išraiškas. Nors geresnių technologijų pagalba veido mimikas galima sufabrikuoti, be pirminės medžiagos variantų sukurti ką nors įtikinamo neįmanoma.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Kuriant sintetinę vaizdo klastotę, problemų gali kilti ir turint gerą pirminę medžiagą. Filme „Indiana Jones“ („Indiana Džounsas“) yra nemažai chaotiškų kadrų. Lyginant su aiškesne vaizdo medžiaga, kurią naudojome anksčiau, algoritmui šiuo atveju sunkiau „išsilaikyti“.
Techninės detalės
Vaizdiniai neatitikimai
Neryškus veidas: Kaukė neryški, „išplaukusi“. Skiriasi kaukės ir kitos video medžiagos rezoliucija (skiriamoji geba) ar aštrumas.
Mirgėjimo efektas: Tarp originalių ir suklastotų veidų justi mirgėjimas. Algoritmas negali atpažinti veido ir trumpam nustoja kurti kaukę.
Wrong perspective: Skaitmeninės klastotės perspektyva, lyginant su visa kita video medžiaga, yra kitokia. Pirminės ir tikslinės vaizdo medžiagos židinio nuotolis skiriasi.
Sintetinė vaizdo klastotė išsiųsta su 64 px rezoliucija (skiriamąja geba). Apatinė rezoliucija reiškia, kad algoritmo parengimui prireikė mažiau laiko, nes modeliui tik reikėjo išmokti sukurti žemos rezoliucijos vaizdą. Filmuojant iš arti, akivaizdi žema skiriamoji geba.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Originalus tikslinis vaizdo įrašas: Indiana Jones and the Temple of Doom | Rope Bridge Fight
Sintetinės vaizdo klastotės video sukurtas, „ištraukus“ pokalbių šou segmentą, kuriame Billas Haderis apsimeta Arnoldu Schwarzeneggeriu. Panaudojus tinkamą Arnoldo Schwarzeneggerio pirminę medžiagą, gauti įtikinantys rezultatai.
Bill Hader
Arnold Schwarzenegger
Originalus tikslinis vaizdo įrašas: Bill Hader Presents: Schwarzenegger Baby
“Deepfake” vaizdo šaltinis: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Techninės detalės
Vaizdiniai neatitikimai
Veido okliuzija: Kai objektai juda priešais veidą, kaukė iškreipia arba uždengia objektą.
Veidai susilieję, odos atspalvis ir rezoliucija (skiriamoji geba) puikūs. Kadangi filmuota iš toli, susiliejusį vaizdą sunku įžiūrėti. Galutinis produktas sukurtas profesionaliai. Vienintelė netyčia atskleista detalė – kai Billas Haderis judina pirštą priešais veidą ir jis pradingsta už kaukės. Aštrumo skirtumas ir piršto kampas leidžia manyti, kad kūrėjas bandė paslėpti galutinio produkto efektą.
Šio eksperimento metu vienas modelis buvo rengiamas keturias, kitas – 48 valandas. 48 valandų modelio rezultatai - ryškesni veido bruožai ir labiau trimatis veidas.
Techninės detalės
Mokymosi laikas susijęs su tuo, kiek kartų algoritmas apdorojo vaizdus. Šis procesas apima: veido (ar skaitmeninės kaukės) sukūrimą, jo palyginimą su pirminiu vaizdu ir korekcijas, darančias kaukę panašesnę į pirminį atvaizdą. Šį ciklą modelis „įveikia“ vieną kartą su visais pirminiais vaizdais ir vėl pradeda iš naujo. Laiko trukmė priklauso nuo kompiuterio galingumo.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Originalus tikslinis vaizdo įrašas: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Šiam eksperimentui patys sukūrėme tiek pirminę, tiek ir tikslinę vaizdo medžiagą. Algoritmo metodai aiškiai matomi. H128 sukuria kaukę, tuo tarpu SAEHD dar labiau priderina veidą.
Arthur
Andrej
Techninės detalės
H128 yra lengvesnis iš dviejų modelių. Jį taikant, galima greičiau pasiekti kokybiškų rezultatų. Tikslesnę SAEHD kaukę lengviau kurti rankiniu būdu, žaidžiant su apšvietimu. H128 atrodo efektyvesnis kuriant veidą: kaukė yra ryškesnė, stabilesnė ir geriau funkcionuoja, judant ir keičiant perspektyvą. Ekspertai mano, kad po ilgesnių bandymų SAEHD pralenks H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Šiais laikais sintetinės vaizdo klastotės gali būti labai kokybiškos ir sunkiai pastebimos. Nors skyrėme dėmesį tik veidų pakeitimui, sintetinėmis vaizdo klastotėmis galima imituoti ir veido judesius. Tada atrodo, kad žmogus kažką pasakė. Žinokite apie šią technologiją ir atminkite jums parodytus jos požymius.
Techninės detalės
Veido judesių imitavimą, kuriam reikia daug galingesnių kompiuterių, kur kas sunkiau atpažinti. Daug iššūkių, susijusių su pirminiais vaizdo įrašais, neturi įtakos judesių imitavimui, tačiau algoritmas veikia panašiai: atkurtos veido dalys bus kiek neryškios ir ne tokios detalios.
Atkreipkite dėmesį ir į garsą: ieškokite trūkumų ar lūpų sinchronizavimo problemų. Naudodamiesi šioje svetainėje sužinota informacija, paklauskite savęs, ar tikėtina, kad vaizdo įrašą buvo norima suklastoti, ar abejojate jo tikrumu, ar yra tinkamos sąlygos galimai sintetinei vaizdo klastotei, ir visada tikrinkite vaizdo įrašo šaltinį.
Pirminis sintetinių vaizdo klastočių įrašas: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.