重啓體驗

實驗室

揭開深偽的神秘面紗

透過我們的實例研究以及從網路各地的案例,探索深偽的運作方式與辨識深偽的視覺線索。

01. 嬰兒特斯拉

一起來看看網路上的一個知名案例。

此一影片中伊隆·馬斯克的臉被貼到嬰兒的臉上。此類換臉是最常用的深偽模式,但請看仔細點:輪廓線條並不清晰,且膚色有異。

技術細節

視覺破綻

深偽是由一個電腦程式能夠透過分析多張某人照片後,自動學習如何重製人臉影像的成果。然後該程式會將其創造移花接木到已經存在影片裡,類似數位面罩。以下的影片裡能看到數位面罩的痕跡:

深偽目標影片

深偽影片

02. DIY

你也可以在家試做,方法如下。

利用家用電腦就能做出深偽影片,你只需要一張功能相當強大的顯示卡。此影片呈現了我們初試啼聲的結果,揭示使用可靠來源的影片重要性。

Shia LaBeouf

Pilar

技術細節

視覺破綻

那些用來訓練演算法的照片並不包含能夠覆蓋西亞·李畢福臉的正確表情,也沒有包含他的側臉圖像。如果電腦的人工神經網絡沒有受過此類情境的訓練,便無法產出夠精確的數位面罩。仔細看西亞的嘴浮現在面罩下方,結果看起來有兩張嘴。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

H64

項目達到的程度

200

/2000 張圖片

106000

/268000 次

64

/128 像素

31

/63 小時

03. 流程

所以,要怎麼做出深偽效果?

需要的影片有二:來源影片和目標影片。該電腦程式會透過這兩個影片自學,並從來源影片中做出利用編輯軟體便能覆蓋在目標影片裡的數位面罩。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

項目達到的程度

750

/2000 張圖片

200000

/268000 次

128

/128 像素

48

/63 小時




深偽目標影片出處:The Devil Wears Prada | Andy's Interview

原始

數據集

面罩

校準

深偽

後製

挑選想要將臉部覆蓋上去的目標影片。選擇有著一致背景的影片會效果較佳。

04. 學習資料

供給這個程式更多素材是否有助提升其能力?

本次實驗裡,提供兩個程式數量不一的影像,得到較多素材的程式顯然效果較佳。有著較多臉部訊息的數位模組能產出較精細的面罩。

技術細節

本實驗將同一來源影片輸出成兩個不同幀率的版本,但兩個模組都在全然相同的設定模式下學習。每幅影像的學習循環時間對等,但是擁有較大數據集的模組則需要較多的學習時間。因此可以很清楚地看到有著較多影像的演算法能夠產出較能與目標影片的影像貼合的結果。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

項目達到的程度

200

/2000 張圖片

200000

/20000

/268000 次

128

/128 像素

8

/63 小時

Benedict Cumberbatch

Arthur

05. 社交詐騙

你有多好騙?我們是不是只要偷用你在社群媒體上的照片,就能做出幾可亂真的深偽?

我們取材某位團隊成員在臉書上的所有照片做成深偽。幾乎所有來源影像中,她都是微笑著,所以演算法無法產出不含笑容的數位面罩。

Natalie Portman

Pilar

技術細節

視覺破綻

影片包含了比從臉書上抓下來的照片有著更多臉部細微表情。團隊成員上傳到臉書的照片都是自己挑選過的,因此缺乏那種講話時才會產生的真實臉部表情影像。即使爾後的科技發展能夠捏造臉部表情,少了多樣化的素材,亦不可能產出具有說服力的成果。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

項目達到的程度

165

/2000 張圖片

215000

/268000 次

128

/128 像素

44

/63 小時

06. 目標選擇

我們已經知道來源影片對於演算法的學習有多重要,那目標影片呢?

即便有好的來源,要做出深偽影像還是不容易。電影法櫃奇兵裡有很多混亂的鏡頭,與我們之前所使用的單純畫面相比,演算法現在則有跟不上的狀況。

技術細節

視覺破綻

我們輸出的深偽影片解析度為64像素,低解析度意味著演算法學習的時間較少,因為模組只需要學習如何產出低畫素的影像。在臉部的特寫鏡頭畫面,低解析度的結果顯而易見。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

項目達到的程度

1400

/2000 張圖片

100000

/268000 次

64

/128 像素

8

/63 小時

Harrison Ford

Andrej

07. 別眨眼

有時候雙方就融合在一起,此一影片中目標影像甚至會模仿新的臉部表情。

此深偽影片取自比爾.哈德(Bill Hader)在一脫口秀節目上模仿阿諾.史瓦辛格(Arnold Schwarzenegger)的橋段。利用合意的阿諾.史瓦辛格素材,這個深偽的成果相當逼真。

Bill Hader

Arnold Schwarzenegger

技術細節

視覺破綻

該臉部的融合、膚色勻稱且解析度的品質都非常好。由於遠景鏡頭的關係,很難看到臉部模糊的部分。且後製也相當專業。其唯一破綻則是當比爾.哈德的手指在臉前揮動時,手指在面罩出現後消失。兩方不等的銳利度與手指的角度顯示影片製作者企圖透過後製來掩蓋瑕疵。

08. 時間很重要

如果讓演算法花多點時間學習來源內容,結果會更好嗎?

此一實驗裡,一模組學習了四個小時,另一組學習了四十八個小時。結果顯示經過48小時學習的模組在臉部成果上較為細緻,也更立體。

技術細節

學習時間長短與演算法處理的影像次數息息相關。學習的過程會需要產出一張臉(或是數位面罩)、與來源圖像比對,再根據面罩與來源之間的差異進行微調。演算法模組針對所有來源影片的每張圖片跑過此一循環,然後一再重複,而其所花的時間多寡則會取決於電腦的處理能力。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

項目達到的程度

400

/400

/2000 張圖片

20000

/268000 次

128

/128 像素

4

/48

/63 小時

09. 演算法

最後一項實驗————不同演算法如何處理特定狀況?

在此實驗裡,來源與目標影片都是我們自行製作的,因此很容易看出兩個演算法處理方式的不同之處。H128產出的是方形面罩,而SAEHD則在貼合臉部的處理上表現較佳。

Arthur

Andrej

技術細節

H128為兩個模組中較為輕巧的,能較快產出成果。SAEHD所產出的較精確面罩,則是在處理手部與光線融合時表現較佳。H128似乎在學習製作臉部更為優異:其面罩較清晰而穩定,在處理動作與透視變化時較能呈現其優勢。不過,專家表示若是能給予SAEHD更多的學習時間,其表現將比H128更優。

演算法

數據集規模

迭代數量

輸出分辨率

學習時間

SAEHD

H128

項目達到的程度

500

/500

/2000 張圖片

150000

/150000

/268000 次

128

/128 像素

24

/40

/63 小時

10. 請注意

讓我們看看深偽影片目前的發展。

注意:有些深偽的品質超優,辨識上難度很高。即使已聚焦換臉的技術,深偽也可用作人臉重現——讓某人看起來彷彿真的說了某些話。

技術細節

人臉重現需要更強大的電腦運算功能,其結果讓人更難以辨識真偽。許多在來源影片上出現的狀況,對人臉重置而言完全不是問題,但其演算法運作的方式大同小異。重製後的臉部會較為模糊,細節也較不精緻。

還有,要注意影片的音效,並留意是否有瑕疵或是對嘴的問題。發揮你在此網站學到的洞察力、質疑影片是否成為目標影片的可能性,並留心影片的條件是否恰好成為深偽的嫌疑。如果覺得不對勁,記得一定要確認影片的來源。

這裡列出你已經學到的小技巧,讓你更容易自行確認影片。

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0