重啓體驗
透過我們的實例研究以及從網路各地的案例,探索深偽的運作方式與辨識深偽的視覺線索。
此一影片中伊隆·馬斯克的臉被貼到嬰兒的臉上。此類換臉是最常用的深偽模式,但請看仔細點:輪廓線條並不清晰,且膚色有異。
技術細節
視覺破綻
膚色違和: 數位面罩與目標對象的臉部色調有異,其臉上也因為好似覆蓋了一層色彩,呈現出邊緣線或斑點。
深偽是由一個電腦程式能夠透過分析多張某人照片後,自動學習如何重製人臉影像的成果。然後該程式會將其創造移花接木到已經存在影片裡,類似數位面罩。以下的影片裡能看到數位面罩的痕跡:
深偽目標影片
深偽影片
利用家用電腦就能做出深偽影片,你只需要一張功能相當強大的顯示卡。此影片呈現了我們初試啼聲的結果,揭示使用可靠來源的影片重要性。
Shia LaBeouf
Pilar
技術細節
視覺破綻
膚色不一: 數位面罩的膚色與目標對象的臉部色調不一,導致臉上好似被另一層顏色覆蓋而可看出邊緣線或斑點。
表情違和: 深偽的臉部表情與目標的臉搭不起來,臉部表徵顯得不自然,且有消失、模糊或重複的景象。
輪廓痕跡: 數位面罩的邊緣線顯而易見,在臉的輪廓處可看出數位面罩的明顯或模糊的邊緣線。
那些用來訓練演算法的照片並不包含能夠覆蓋西亞·李畢福臉的正確表情,也沒有包含他的側臉圖像。如果電腦的人工神經網絡沒有受過此類情境的訓練,便無法產出夠精確的數位面罩。仔細看西亞的嘴浮現在面罩下方,結果看起來有兩張嘴。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
H64
項目達到的程度
200
/2000 張圖片
106000
/268000 次
64
/128 像素
31
/63 小時
需要的影片有二:來源影片和目標影片。該電腦程式會透過這兩個影片自學,並從來源影片中做出利用編輯軟體便能覆蓋在目標影片裡的數位面罩。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
項目達到的程度
750
/2000 張圖片
200000
/268000 次
128
/128 像素
48
/63 小時
原始
數據集
面罩
校準
深偽
後製
挑選想要將臉部覆蓋上去的目標影片。選擇有著一致背景的影片會效果較佳。
將欲使用的臉(來源)錄製成一個數據集,其光線與表情越相符愈好。
將目標影片中其他人的臉遮蓋住,否則演算法會選到這些影像讓自學過程混亂。
演算法會將臉裁切下來作為自學素材,且記憶臉部位置以便之後能精確地覆蓋上去。
演算法會從來源影片的臉產出一個爾後你需要在目標影片上對齊貼上的面罩。
影片編輯軟體能讓面罩更有效地媒合於影片中,呈現更細緻的結果。
本次實驗裡,提供兩個程式數量不一的影像,得到較多素材的程式顯然效果較佳。有著較多臉部訊息的數位模組能產出較精細的面罩。
技術細節
本實驗將同一來源影片輸出成兩個不同幀率的版本,但兩個模組都在全然相同的設定模式下學習。每幅影像的學習循環時間對等,但是擁有較大數據集的模組則需要較多的學習時間。因此可以很清楚地看到有著較多影像的演算法能夠產出較能與目標影片的影像貼合的結果。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
項目達到的程度
200
/2000 張圖片
200000
/20000
/268000 次
128
/128 像素
8
/63 小時
Benedict Cumberbatch
Arthur
我們取材某位團隊成員在臉書上的所有照片做成深偽。幾乎所有來源影像中,她都是微笑著,所以演算法無法產出不含笑容的數位面罩。
Natalie Portman
Pilar
技術細節
視覺破綻
臉部模糊: 在此呈現的面罩很模糊。面罩與影片的其它細部都有著不同的銳利度或是解析度。
表情違和: 深偽的臉部表情與目標的臉搭不起來,臉部表徵顯得不自然,且有消失、模糊或重複的景象。
側臉輪廓線: 這張臉的側面看起來有問題。深偽面罩有破裂,缺乏細節或是沒有對齊貼合。
影片包含了比從臉書上抓下來的照片有著更多臉部細微表情。團隊成員上傳到臉書的照片都是自己挑選過的,因此缺乏那種講話時才會產生的真實臉部表情影像。即使爾後的科技發展能夠捏造臉部表情,少了多樣化的素材,亦不可能產出具有說服力的成果。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
項目達到的程度
165
/2000 張圖片
215000
/268000 次
128
/128 像素
44
/63 小時
即便有好的來源,要做出深偽影像還是不容易。電影法櫃奇兵裡有很多混亂的鏡頭,與我們之前所使用的單純畫面相比,演算法現在則有跟不上的狀況。
技術細節
視覺破綻
臉部模糊: 面罩模糊。面罩與影片的其它細部都有著不同的銳利度或是解析度。
畫面閃爍: 在原始與深偽的臉部畫面之間有閃頻,因此演算法無法辨識目標的臉,該瞬間停止產出面罩。
視角錯誤: 該深偽影片與整體影像中的視角不符。因為來源影片與目標影片的焦距不一。
我們輸出的深偽影片解析度為64像素,低解析度意味著演算法學習的時間較少,因為模組只需要學習如何產出低畫素的影像。在臉部的特寫鏡頭畫面,低解析度的結果顯而易見。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
項目達到的程度
1400
/2000 張圖片
100000
/268000 次
64
/128 像素
8
/63 小時
Harrison Ford
Andrej
此深偽影片取自比爾.哈德(Bill Hader)在一脫口秀節目上模仿阿諾.史瓦辛格(Arnold Schwarzenegger)的橋段。利用合意的阿諾.史瓦辛格素材,這個深偽的成果相當逼真。
Bill Hader
Arnold Schwarzenegger
技術細節
視覺破綻
臉部遮擋: 當有物體從臉部前方經過時,面罩便會扭曲或遮蓋該物體。
該臉部的融合、膚色勻稱且解析度的品質都非常好。由於遠景鏡頭的關係,很難看到臉部模糊的部分。且後製也相當專業。其唯一破綻則是當比爾.哈德的手指在臉前揮動時,手指在面罩出現後消失。兩方不等的銳利度與手指的角度顯示影片製作者企圖透過後製來掩蓋瑕疵。
此一實驗裡,一模組學習了四個小時,另一組學習了四十八個小時。結果顯示經過48小時學習的模組在臉部成果上較為細緻,也更立體。
技術細節
學習時間長短與演算法處理的影像次數息息相關。學習的過程會需要產出一張臉(或是數位面罩)、與來源圖像比對,再根據面罩與來源之間的差異進行微調。演算法模組針對所有來源影片的每張圖片跑過此一循環,然後一再重複,而其所花的時間多寡則會取決於電腦的處理能力。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
項目達到的程度
400
/400
/2000 張圖片
20000
/268000 次
128
/128 像素
4
/48
/63 小時
Constance Wu
Yueling
在此實驗裡,來源與目標影片都是我們自行製作的,因此很容易看出兩個演算法處理方式的不同之處。H128產出的是方形面罩,而SAEHD則在貼合臉部的處理上表現較佳。
Arthur
Andrej
技術細節
H128為兩個模組中較為輕巧的,能較快產出成果。SAEHD所產出的較精確面罩,則是在處理手部與光線融合時表現較佳。H128似乎在學習製作臉部更為優異:其面罩較清晰而穩定,在處理動作與透視變化時較能呈現其優勢。不過,專家表示若是能給予SAEHD更多的學習時間,其表現將比H128更優。
演算法
數據集規模
迭代數量
輸出分辨率
學習時間
SAEHD
H128
項目達到的程度
500
/500
/2000 張圖片
150000
/150000
/268000 次
128
/128 像素
24
/40
/63 小時
注意:有些深偽的品質超優,辨識上難度很高。即使已聚焦換臉的技術,深偽也可用作人臉重現——讓某人看起來彷彿真的說了某些話。
技術細節
人臉重現需要更強大的電腦運算功能,其結果讓人更難以辨識真偽。許多在來源影片上出現的狀況,對人臉重置而言完全不是問題,但其演算法運作的方式大同小異。重製後的臉部會較為模糊,細節也較不精緻。
還有,要注意影片的音效,並留意是否有瑕疵或是對嘴的問題。發揮你在此網站學到的洞察力、質疑影片是否成為目標影片的可能性,並留心影片的條件是否恰好成為深偽的嫌疑。如果覺得不對勁,記得一定要確認影片的來源。