Riavviando l'esperienza

Deep

fake

Lab

Cosa si cela dietro alla magia dei deepfake.

Scopri come funzionano i deepfake e quali sono i loro punti critici che puoi utilizzare per identificarli. Siamo un gruppo di designer della comunicazione e abbiamo realizzato questo progetto per esporre la nostra ricerca riguardante la produzione dei deepfake, e per comprendere le caratteristiche che ne permettono l’identificazione.

01. Tesla Baby

Diamo un'occhiata a un popolare esempio tratto da Internet.

In questo video, il volto di Elon Musk è stato sovrapposto a quello di un bambino, questo è l'utilizzo più comune della tecnica deepfake. Guarda attentamente: i contorni del viso non sono nitidi e il colore della pelle è diverso.

Dettagli tecnici

Imperfezioni visive

Un deepfake è generato da un programma per computer che può apprendere autonomamente come ricreare un volto. Il programma, autoregolando i propri parametri, diventa più efficace nel ricreare i tratti di un volto specifico; questa è una tipologia di deep learning. Il volto generato viene sovrapposto su di un video esistente – alla stregua di una maschera digitale. Puoi vedere le tracce di tale maschera in questo video.

Video di destinazione

Deepfaked Video

02. Fai da te

Puoi provare anche a casa. Ti mostreremo come.

I video deepfake possono essere realizzati con un normale computer, ma hai bisogno di una scheda grafica piuttosto potente. Questo video rappresenta il nostro primo tentativo, esso mostra perché sia importante utilizzare video sorgente adeguati.

Dettagli tecnici

Imperfezioni visive

Le immagini usate per allenare l'algoritmo non contenevano né le espressioni facciali corrispondenti a quelle del volto di Shia nel video originale, né filmati del suo volto di profilo. Se la rete neurale non viene allenata per queste situazioni, non è in grado di produrre una maschera digitale accurata. Da notare in alcuni momenti come la bocca di Shia appaia al di sotto della maschera, dando origine a due bocche.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Processo

Quindi, come si crea un deepfake?

Hai bisogno di due video: uno sorgente e uno di destinazione. Il programma si allenerà utilizzandoli entrambi e creerà una maschera dal video sorgente che potrà essere sovrapposta al video di destinazione utilizzando un software di editing.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Video di destinazione: Il diavolo veste Prada | Il colloquio di Andy

Originale

Dataset

Maschera

Allineamento

Deepfake

Post

Selezionare un video di destinazione su cui si desidera sovrapporre un volto. La scelta di un video fluido con uno sfondo uniforme vi darà un risultato migliore.

04. Dati di allenamento

Cosa succede se forniamo al programma più contenuti? Migliorerà?

In questo esperimento, a due programmi è stato assegnato un diverso numero di immagini. Maggiore è il materiale sorgente, migliore è il risultato. Il modello avendo maggiori informazioni sul viso ha potuto così sviluppare una maschera più fedele.

Dettagli tecnici

Questo esperimento è stato realizzato utilizzando I fotogrammi di uno stesso video sorgente, ma in quantità differenti - entrambi i modelli sono stati allenati con le stesse impostazioni. La quantità di cicli di allenamento per immagine è uguale, ma il tempo di esecuzione è stato maggiore con il dataset più grande. Si può chiaramente vedere come l'algoritmo allenato con più immagini possa produrre un risultato più raffinato che corrisponde meglio al video di destinazione.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

05. Frode social

Quanto sei a rischio? Possiamo rubare i tuoi contenuti sui social media e creare un buon deepfake?

Abbiamo raccolto tutte le immagini dal profilo Facebook di uno dei membri del nostro gruppo e ne abbiamo creato un deepfake. In quasi tutte le immagini sorgente la protagonista stava sorridendo, di conseguenza l'algoritmo ha generato unicamente volti sorridenti.

Dettagli tecnici

Imperfezioni visive

Le espressioni facciali contenute in un video sono maggiori rispetto alle immagini ottenute da Facebook. Le foto sono scelte dall’utente ai fini della pubblicazione sui social media, e quindi manca il tipo di immagini necessarie per creare una varietà di espressioni facciali. Anche se le migliori tecnologie potrebbero essere in grado di generare espressioni del viso, senza materiale sorgente diversificato risulta impossibile creare qualcosa di convincente.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Scelta della destinazione

Abbiamo visto come la sorgente sia importante nell’allenamento dell'algoritmo. E per il video di destinazione?

Anche con una buona sorgente, può essere difficile creare un deepfake. Indiana Jones contiene scene caotiche. Rispetto ai video più puliti che abbiamo usato prima, ora l'algoritmo ha difficoltà a tenere il passo.

Dettagli tecnici

Imperfezioni visive

Il deepfake è stato esportato con una risoluzione di 64 px. La risoluzione più bassa implica un minor tempo di allenamento dell'algoritmo, perché il modello doveva solo imparare a creare un'immagine a bassa risoluzione. Nelle riprese facciali ravvicinate, la bassa risoluzione è evidente.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

07. Non chiudere gli occhi

A volte i due si fondono. In questo video l’attore sta già imitando il protagonista del deepfake.

Questo video deepfake è stato tratto da un talk show in cui Bill Hader impersona Arnold Schwarzenegger. Utilizzando materiale sorgente adatto per Arnold Schwarzenegger, i risultati sono stati convincenti.

Dettagli tecnici

Imperfezioni visive

La sovrapposizione dei visi, il tono della pelle e la risoluzione sono di buona qualità. La ripresa da lontano rende difficile vedere qualsiasi sfocatura. La post-produzione è stata sapientemente realizzata. L'unico indizio si ha quando Bill Hader passa il dito davanti al suo volto e questo scompare dietro alla maschera. La differenza di nitidezza e la sagoma del dito suggeriscono che il creatore abbia cercato di nascondere l'effetto in post-produzione.

08. Il tempo conta

Cosa succede se lasciamo che l'algoritmo si alleni maggiormente sul contenuto della sorgente. I risultati miglioreranno?

Per questo esperimento, un modello è stato allenato per quattro ore e l'altro per 48. I risultati del modello di 48 ore hanno mostrato un maggiore dettaglio facciale e un viso più raffinato.

Dettagli tecnici

Il tempo di allenamento è correlato al numero di volte in cui l'algoritmo elabora le immagini. Il processo prevede la creazione di un volto (detto anche maschera digitale), poi confrontato con l'immagine sorgente, ed infine effettua delle regolazioni per migliorare il risultato. Il modello effettua queste operazioni per tutte le immagini sorgente e poi ricomincia. Il tempo necessario dipende dalla potenza del computer utilizzato.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

09. Algoritmi

Un ultimo esperimento. In che modo diversi algoritmi rispondono a determinate condizioni?

Per questo esperimento, abbiamo creato noi stessi sia il video sorgente che il video di destinazione. Le peculiarità degli algoritmi emergono chiaramente. H128 crea una maschera quadrata mentre SAEHD corrisponde meglio al viso.

Arthur

Andrej

Dettagli tecnici

H128 è il modello più leggero dei due. Raggiunge risultati di qualità più velocemente. La maschera più precisa, SAEHD, gestisce meglio le occlusioni e l'illuminazione. H128 sembra essere migliore nella resa del viso: la maschera è più nitida, più stabile e si comporta meglio con i cambiamenti di movimento e prospettiva. Tuttavia, gli esperti dicono che con più tempo di allenamento, SAEHD supererà H128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Sii consapevole

Vediamo cosa sta realmente accadendo con i video deepfake.

La consapevolezza è tutto: i deepfake possono essere di alta qualità e difficili da riconoscere. Anche se ci siamo concentrati sulla sostituzione di volti, i deepfake possono essere utilizzati anche per la rimanipolazione facciale – permettendo di simulare dialoghi mai avvenuti nella realtà.

Dettagli tecnici

La rimanipolazione facciale richiede una maggior potenza di calcolo, ma è molto più difficile da riconoscere. Molte delle problematiche dei video sorgente non riguardano la rimanipolazione, ma l'algoritmo agisce in modo simile. Le parti ricreate del viso saranno leggermente sfocate e meno dettagliate.

Inoltre, presta attenzione all'audio e cerca difetti o problemi di sincronizzazione labiale. Utilizzando le informazioni che hai acquisito da questo sito web, chiediti se un video ha le caratteristiche per essere un possibile deepfake. In caso di dubbio, approfondisci sempre le origini del video.

Ecco un utile riepilogo delle competenze acquisite su questo sito web, in modo che tu possa controllare i video autonomamente.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0