Riavviando l'esperienza
Scopri come funzionano i deepfake e quali sono i loro punti critici che puoi utilizzare per identificarli. Siamo un gruppo di designer della comunicazione e abbiamo realizzato questo progetto per esporre la nostra ricerca riguardante la produzione dei deepfake, e per comprendere le caratteristiche che ne permettono l’identificazione.
In questo video, il volto di Elon Musk è stato sovrapposto a quello di un bambino, questo è l'utilizzo più comune della tecnica deepfake. Guarda attentamente: i contorni del viso non sono nitidi e il colore della pelle è diverso.
Dettagli tecnici
Imperfezioni visive
Errata corrispondenza del colore della pelle: c'è una differenza nel tono della pelle tra la maschera e il volto di destinazione. Il volto sembra essere composto da colori differenti e mostra bordi o macchie.
Un deepfake è generato da un programma per computer che può apprendere autonomamente come ricreare un volto. Il programma, autoregolando i propri parametri, diventa più efficace nel ricreare i tratti di un volto specifico; questa è una tipologia di deep learning. Il volto generato viene sovrapposto su di un video esistente – alla stregua di una maschera digitale. Puoi vedere le tracce di tale maschera in questo video.
Video di destinazione
Deepfaked Video
Video di destinazione: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Deepfake Video sorgente: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
I video deepfake possono essere realizzati con un normale computer, ma hai bisogno di una scheda grafica piuttosto potente. Questo video rappresenta il nostro primo tentativo, esso mostra perché sia importante utilizzare video sorgente adeguati.
Shia LaBeouf
Pilar
Video di destinazione: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech
Dettagli tecnici
Imperfezioni visive
Errata corrispondenza del colore della pelle: c'è una differenza nel tono della pelle tra la maschera e il volto di destinazione. Il volto sembra essere composto da colori differenti e mostra bordi o macchie.
Espressioni non corrispondenti: le espressioni sul volto del video deepfake non corrispondono al volto del video di destinazione. Le caratteristiche facciali non sono naturali e sono sfocate, ripetute o assenti.
Bordi visibili: i bordi della maschera sono visibili, come un bordo nitido o sfocato che circonda il viso.
Le immagini usate per allenare l'algoritmo non contenevano né le espressioni facciali corrispondenti a quelle del volto di Shia nel video originale, né filmati del suo volto di profilo. Se la rete neurale non viene allenata per queste situazioni, non è in grado di produrre una maschera digitale accurata. Da notare in alcuni momenti come la bocca di Shia appaia al di sotto della maschera, dando origine a due bocche.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Hai bisogno di due video: uno sorgente e uno di destinazione. Il programma si allenerà utilizzandoli entrambi e creerà una maschera dal video sorgente che potrà essere sovrapposta al video di destinazione utilizzando un software di editing.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Video di destinazione: Il diavolo veste
Prada | Il colloquio di Andy
Originale
Dataset
Maschera
Allineamento
Deepfake
Post
Selezionare un video di destinazione su cui si desidera sovrapporre un volto. La scelta di un video fluido con uno sfondo uniforme vi darà un risultato migliore.
Creare un dataset per il volto che si desidera posizionare (la sorgente), cercando di fare corrispondere il più possibile l'illuminazione e le espressioni rispetto al video di destinazione.
Coprire i volti di altre persone nel video di destinazione, altrimenti saranno considerati dall'algoritmo e confonderanno il processo di allenamento della macchina.
L'algoritmo ritaglierà i volti in modo da poterli utilizzare per l'allenamento e salverà la loro posizione per sovrapporre con precisione la maschera in un secondo momento.
L'algoritmo genera una maschera del volto dal video sorgente, che è quindi necessario sovrapporre al video di destinazione.
Il software di video editing permette di far coincidere meglio la maschera e perfezionare il risultato finale.
In questo esperimento, a due programmi è stato assegnato un diverso numero di immagini. Maggiore è il materiale sorgente, migliore è il risultato. Il modello avendo maggiori informazioni sul viso ha potuto così sviluppare una maschera più fedele.
Dettagli tecnici
Questo esperimento è stato realizzato utilizzando I fotogrammi di uno stesso video sorgente, ma in quantità differenti - entrambi i modelli sono stati allenati con le stesse impostazioni. La quantità di cicli di allenamento per immagine è uguale, ma il tempo di esecuzione è stato maggiore con il dataset più grande. Si può chiaramente vedere come l'algoritmo allenato con più immagini possa produrre un risultato più raffinato che corrisponde meglio al video di destinazione.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Video di destinazione: Sherlock | Le cascate di Reichenbach | Resa dei conti sul tetto
Abbiamo raccolto tutte le immagini dal profilo Facebook di uno dei membri del nostro gruppo e ne abbiamo creato un deepfake. In quasi tutte le immagini sorgente la protagonista stava sorridendo, di conseguenza l'algoritmo ha generato unicamente volti sorridenti.
Natalie Portman
Pilar
Video di destinazione: Star Wars: Episodio I – La minaccia fantasma | Padmé incontra Anakin
Dettagli tecnici
Imperfezioni visive
Volto sfocato: la maschera è sfocata. C'è una differenza nella nitidezza o nella risoluzione tra la maschera e il resto del video.
Espressioni non corrispondenti: le espressioni sul volto del video deepfake non corrispondono al volto del video di destinazione. Le caratteristiche facciali non sono naturali e sono sfocate, ripetute o assenti.
Contorni del profilo: l’inquadratura di profilo del viso sembra errata. La maschera del deepfake è incompleta, meno dettagliata o allineata in modo errato.
Le espressioni facciali contenute in un video sono maggiori rispetto alle immagini ottenute da Facebook. Le foto sono scelte dall’utente ai fini della pubblicazione sui social media, e quindi manca il tipo di immagini necessarie per creare una varietà di espressioni facciali. Anche se le migliori tecnologie potrebbero essere in grado di generare espressioni del viso, senza materiale sorgente diversificato risulta impossibile creare qualcosa di convincente.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Anche con una buona sorgente, può essere difficile creare un deepfake. Indiana Jones contiene scene caotiche. Rispetto ai video più puliti che abbiamo usato prima, ora l'algoritmo ha difficoltà a tenere il passo.
Dettagli tecnici
Imperfezioni visive
Volto sfocato: la maschera è sfocata. C'è una differenza nella nitidezza o nella risoluzione tra la maschera e il resto del video.
Effetto sfarfallio: c'è uno sfarfallio tra il volto originale e quello del deepfake. L'algoritmo non è in grado di riconoscere il viso e interrompe la creazione della maschera per un istante.
Prospettiva errata: il deepfake ha una prospettiva diversa dal resto del video, oppure la sorgente e il video di destinazione differiscono per lunghezza focale.
Il deepfake è stato esportato con una risoluzione di 64 px. La risoluzione più bassa implica un minor tempo di allenamento dell'algoritmo, perché il modello doveva solo imparare a creare un'immagine a bassa risoluzione. Nelle riprese facciali ravvicinate, la bassa risoluzione è evidente.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Video di destinazione: Indiana Jones e il tempio maledetto | Lotta sul ponte di corda
Questo video deepfake è stato tratto da un talk show in cui Bill Hader impersona Arnold Schwarzenegger. Utilizzando materiale sorgente adatto per Arnold Schwarzenegger, i risultati sono stati convincenti.
Bill Hader
Arnold Schwarzenegger
Video di destinazione: Bill Hader Presents: Schwarzenegger Baby
Video sorgente: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Dettagli tecnici
Imperfezioni visive
Occlusione del viso: quando gli oggetti passano davanti al viso, la maschera distorce o copre l'oggetto.
La sovrapposizione dei visi, il tono della pelle e la risoluzione sono di buona qualità. La ripresa da lontano rende difficile vedere qualsiasi sfocatura. La post-produzione è stata sapientemente realizzata. L'unico indizio si ha quando Bill Hader passa il dito davanti al suo volto e questo scompare dietro alla maschera. La differenza di nitidezza e la sagoma del dito suggeriscono che il creatore abbia cercato di nascondere l'effetto in post-produzione.
Per questo esperimento, un modello è stato allenato per quattro ore e l'altro per 48. I risultati del modello di 48 ore hanno mostrato un maggiore dettaglio facciale e un viso più raffinato.
Dettagli tecnici
Il tempo di allenamento è correlato al numero di volte in cui l'algoritmo elabora le immagini. Il processo prevede la creazione di un volto (detto anche maschera digitale), poi confrontato con l'immagine sorgente, ed infine effettua delle regolazioni per migliorare il risultato. Il modello effettua queste operazioni per tutte le immagini sorgente e poi ricomincia. Il tempo necessario dipende dalla potenza del computer utilizzato.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Video di destinazione: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Per questo esperimento, abbiamo creato noi stessi sia il video sorgente che il video di destinazione. Le peculiarità degli algoritmi emergono chiaramente. H128 crea una maschera quadrata mentre SAEHD corrisponde meglio al viso.
Arthur
Andrej
Dettagli tecnici
H128 è il modello più leggero dei due. Raggiunge risultati di qualità più velocemente. La maschera più precisa, SAEHD, gestisce meglio le occlusioni e l'illuminazione. H128 sembra essere migliore nella resa del viso: la maschera è più nitida, più stabile e si comporta meglio con i cambiamenti di movimento e prospettiva. Tuttavia, gli esperti dicono che con più tempo di allenamento, SAEHD supererà H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
La consapevolezza è tutto: i deepfake possono essere di alta qualità e difficili da riconoscere. Anche se ci siamo concentrati sulla sostituzione di volti, i deepfake possono essere utilizzati anche per la rimanipolazione facciale – permettendo di simulare dialoghi mai avvenuti nella realtà.
Dettagli tecnici
La rimanipolazione facciale richiede una maggior potenza di calcolo, ma è molto più difficile da riconoscere. Molte delle problematiche dei video sorgente non riguardano la rimanipolazione, ma l'algoritmo agisce in modo simile. Le parti ricreate del viso saranno leggermente sfocate e meno dettagliate.
Inoltre, presta attenzione all'audio e cerca difetti o problemi di sincronizzazione labiale. Utilizzando le informazioni che hai acquisito da questo sito web, chiediti se un video ha le caratteristiche per essere un possibile deepfake. In caso di dubbio, approfondisci sempre le origini del video.
Video sorgente: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.