Restarting the experience
Tìm hiểu cách thức hoạt động của deepfake và các manh mối bằng hình ảnh mà bạn có thể sử dụng để nhận biết chúng, thông qua các câu chuyện nghiên cứu thực tế của chúng tôi và các ví dụ trên web.
Trong video này, khuôn mặt Elon Musk đã được phủ lên khuôn mặt của một em bé. Kiểu hoán đổi này là cách sử dụng deepfake phổ biến nhất. Nhìn kỹ, bạn sẽ thấy góc cạnh không sắc nét và màu da khác hẳn.
Thông tin kỹ thuật
Khiếm khuyết trong hình ảnh
Màu da không khớp: có sự khác biệt về tông da giữa mặt nạ và khuôn mặt mục tiêu. Khuôn mặt dường như được bao phủ bởi lớp màu sắc và có các cạnh hoặc đốm.
Deepfake được tạo ra bởi một chương trình máy tính có thể tự dạy cách tái tạo khuôn mặt bằng cách phân tích nhiều hình ảnh khác nhau của người đó. Sau đó, chương trình sẽ phủ khuôn mặt đã tái tạo lên một video sẵn có - như mặt nạ kỹ thuật số. Có thể thấy dấu vết của chiếc mặt nạ như vậy dưới đây:
Target Video
Deepfaked Video
Video đích deepfake: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Video nguồn deepfake: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Video deepfake có thể được tạo bằng máy tính gia đình, nhưng cần có card đồ họa mạnh. Video này trình bày thử nghiệm đầu tiên của chúng tôi, cho biết lý do tại sao cần sử dụng video nguồn phù hợp.
Shia LaBeouf
Pilar
Nguồn video đích: YouTube | MotivaShian | Shia LaBeouf "Just Do It" Motivational Speech
Thông tin kỹ thuật
Khiếm khuyết trong hình ảnh
Màu da không khớp: có sự khác biệt về tông da giữa mặt nạ và khuôn mặt đích. Khuôn mặt dường như được bao phủ bởi lớp màu sắc và có các cạnh hoặc đốm.
Biểu hiện không khớp: các biểu hiện trên khuôn mặt deepfake không khớp với khuôn mặt đích. Các đường nét khuôn mặt không tự nhiên và không nhìn thấy, bị mờ hoặc lặp lại.
Các cạnh có thể nhìn thấy: có thể nhìn thấy các cạnh của mặt nạ, dưới dạng cạnh sắc nét hoặc mờ xung quanh khuôn mặt.
Các hình ảnh được sử dụng để dạy thuật toán không có biểu cảm khuôn mặt phù hợp để che phủ khuôn mặt của Shia trong video, cũng như khuôn mặt của anh ấy trong hồ sơ. Nếu mạng nơ-ron không được dạy cho trường hợp này, nó không thể tạo ra mặt nạ số chính xác. Hãy để ý cách miệng của Shia xuất hiện từ bên dưới mặt nạ, dẫn tới việc có đến hai cái miệng cùng lúc.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Bạn cần hai video: một video nguồn và một video đích. Chương trình sẽ tự học bằng cách sử dụng cả hai video và tạo mặt nạ từ video nguồn để phủ lên video đích bằng phần mềm chỉnh sửa.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Nguồn video đích: The Devil Wears Prada |
Andy's Interview
Nguồn
Tập dữ liệu
Mặt nạ
Căn chỉnh
Deepfake
Bài đăng
Chọn một video đích mà bạn muốn chèn khuôn mặt vào. Chọn video ổn định với phông nền trơn sẽ mang lại kết quả tốt hơn.
Ghi lại tập dữ liệu cho khuôn mặt bạn muốn đặt (nguồn), khớp với ánh sáng và biểu cảm nhất có thể.
Che khuôn mặt của những người khác trong video đích, nếu không thuật toán sẽ chọn những gương mặt này và làm rối quá trình đào tạo.
Thuật toán sẽ cắt xén các khuôn mặt và sử dụng các khuôn mặt này để đào tạo và lưu vị trí để sau đó có thể phủ mặt nạ một cách chính xác.
Thuật toán tạo mặt nạ khuôn mặt từ video nguồn, sau đó bạn cần căn chỉnh cho phù hợp với video đích.
Phần mềm chỉnh sửa video cho phép bạn tạo mặt nạ tốt hơn và tinh chỉnh kết quả cuối cùng.
Trong thử nghiệm này, một số hình ảnh được đưa ra cho hai chương trình. Càng nhiều dữ liệu nguồn thì kết quả sẽ càng tốt hơn. Mô hình có thêm thông tin về khuôn mặt thì xây dựng mặt nạ giống hơn.
Thông tin kỹ thuật
Thử nghiệm này được tiến hành với cùng một video nguồn được xuất ở hai tốc độ khung hình khác nhau - cả hai mô hình đều được đào tạo với bối cảnh studio giống hệt nhau. Số lượng chu kỳ đào tạo trên mỗi hình ảnh là bằng nhau, nhưng tập dữ liệu lớn hơn có thời gian đào tạo lâu hơn. Có thể thấy rõ rằng thuật toán được đào tạo với nhiều hình ảnh hơn có kết quả tốt hơn và phù hợp hơn với video đích.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Video đích ban đầu: Sherlock | The Reichenbach Fall | Rooftop Showdown
Chúng tôi đã lấy tất cả hình ảnh trên Facebook của một thành viên trong nhóm và tạo một deepfake. Cô ấy cười trong hầu hết các ảnh nguồn, vì vậy thuật toán không thể tạo ra mặt nạ không cười.
Natalie Portman
Pilar
Video đích ban đầu: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
Thông tin kỹ thuật
Khiếm khuyết trong hình ảnh
Khuôn mặt bị mờ: mặt nạ bị mờ. Có sự khác biệt về độ sắc nét hoặc độ phân giải giữa mặt nạ và phần còn lại của video.
Biểu hiện không khớp: các biểu hiện trên khuôn mặt deepfake không khớp với khuôn mặt đích. Các đường nét khuôn mặt không tự nhiên và không nhìn thấy, bị mờ hoặc lặp lại.
Đường viền khuôn mặt: hình ảnh bên của khuôn mặt có vẻ không chính xác. Mặt nạ deepfake bị hỏng, kém chi tiết hoặc căn chỉnh không chính xác.
Một video chứa nhiều sắc thái khuôn mặt hơn những hình ảnh được lấy từ Facebook. Các bức ảnh của thành viên nhóm trên mạng xã hội là do chúng tôi tự chọn và do đó thiếu loại hình ảnh cần thiết để tạo biểu cảm khuôn mặt thực tế khi nói. Mặc dù các công nghệ tốt hơn có thể tạo ra các biểu cảm khuôn mặt, nhưng nếu không có tư liệu nguồn đa dạng thì không thể tạo ra kết quả thuyết phục.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Ngay cả khi có tư liệu nguồn tốt, vẫn rất khó để tạo deepfake. Indiana Jones có những cảnh quay lộn xộn. So với các video rõ hơn, thuật toán gặp khó khăn trong việc tạo video deepfake này.
Thông tin kỹ thuật
Khiếm khuyết trong hình ảnh
Khuôn mặt bị mờ: nặt nạ bị mờ. Có sự khác biệt về độ sắc nét hoặc độ phân giải giữa mặt nạ và phần còn lại của video.
Hiệu ứng nhấp nháy: có hiện tượng nhấp nháy giữa khuôn mặt nguyên bản và khuôn mặt deepfake. Thuật toán không thể nhận dạng khuôn mặt và ngừng tạo mặt nạ trong giây lát.
Góc nhìn không chính xác: deepfake có góc nhìn khác với phần còn lại của video. Video nguồn và video đích khác nhau về độ dài tiêu cự.
Deepfake được xuất ra với độ phân giải 64 px. Độ phân giải thấp hơn có nghĩa là thời gian đào tạo thuật toán sẽ ngắn hơn, vì mô hình chỉ phải học cách tạo ra hình ảnh có độ phân giải thấp. Trong ảnh chụp cận cảnh khuôn mặt thì rõ ràng độ phân giải sẽ thấp.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Video đích ban đầu: Indiana Jones and the Temple of Doom | Rope Bridge Fight
Video deepfake này được tạo từ một phân đoạn talk show trong đó Bill Hader giả làm Arnold Schwarzenegger. Bằng cách sử dụng tư liệu nguồn phù hợp cho Arnold Schwarzenegger, kết quả rất thuyết phục.
Bill Hader
Arnold Schwarzenegger
Video đích ban đầu: Bill Hader Presents: Schwarzenegger Baby
Source deepfaked video: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Thông tin kỹ thuật
Khiếm khuyết trong hình ảnh
Che mặt: khi có vật thể đi qua trước khuôn mặt, mặt nạ sẽ biến dạng hoặc che mất vật thể.
Sự hòa trộn khuôn mặt, tông da và độ phân giải đều rất tốt. Ảnh chụp từ xa khiến bạn khó nhìn thấy bất kỳ vết mờ nào. Phần hậu kỳ được thực hiện một cách chuyên nghiệp. Nhược điểm duy nhất là khi Bill Hader di chuyển ngón tay trước mặt, nó biến mất sau mặt nạ. Sự khác biệt về độ sắc nét và góc của ngón tay cho thấy người tạo video đã cố gắng che giấu hiệu ứng trong phần hậu kỳ.
Trong thử nghiệm này, một mô hình được đào tạo trong 4 giờ và mô hình còn lại trong 48 giờ. Kết quả mô hình 48 giờ cho thấy chi tiết khuôn mặt tốt hơn và khuôn mặt có hình ảnh ba chiều rõ rệt hơn.
Thông tin kỹ thuật
Thời gian đào tạo liên quan đến số lần thuật toán xử lý hình ảnh. Quá trình này bao gồm bước tạo khuôn mặt (hoặc mặt nạ số), so sánh với hình ảnh nguồn, sau đó điều chỉnh để cải thiện mức độ giống nhau giữa mặt nạ với nguồn. Mô hình trải qua chu kỳ này một lần cho tất cả các ảnh nguồn và sau đó lại bắt đầu lại. Thời gian cần thiết tùy thuộc vào mức độ mạnh mẽ của máy tính được sử dụng.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Trong thử nghiệm này, chúng tôi tự tạo cả video nguồn và video đích. Chúng ta có thể thấy rõ các phương pháp của thuật toán. H128 tạo ra mặt nạ hình vuông trong khi SAEHD giống với khuôn mặt hơn.
Arthur
Andrej
Thông tin kỹ thuật
H128 nhẹ hơn trong hai mô hình. H128 nhanh chóng đạt được kết quả tốt hơn. Mặt nạ chính xác hơn của SAEHD có khả năng xử lý tay và hòa hợp với ánh sáng tốt hơn. H128 dường như được đào tạo tốt hơn để tạo khuôn mặt: mặt nạ sắc nét, ổn định và hoạt động tốt hơn với các thay đổi về chuyển động và góc nhìn. Tuy nhiên, các chuyên gia cho rằng nếu thời gian đào tạo nhiều hơn thì SAEHD sẽ tốt hơn H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Lưu ý: deepfake có thể có chất lượng cao và khó phát hiện. Mặc dù phần này chủ yếu tập trung vào hoán đổi khuôn mặt, deepfake cũng có thể tái hiện khuôn mặt, giống như một người đang nói gì đó.
Thông tin kỹ thuật
Tái hiện khuôn mặt cần nhiều khả năng tính toán hơn nhưng cũng khó nhận biết hơn nhiều. Việc này sẽ khó khăn hơn do video nguồn không sử dụng cho việc tái hiện, nhưng thuật toán hoạt động theo cách tương tự. Các bộ phận được tái hiện của khuôn mặt sẽ hơi mờ và kém chi tiết.
Ngoài ra, hãy chú ý đến âm thanh và tìm khuyết điểm hoặc nhép môi. Sử dụng thông tin chi tiết bạn đã học được trên trang web này, hãy đặt câu hỏi liệu một video có khả năng trở thành video đích hay không và liệu các điều kiện có phù hợp để có thể tạo ra deepfake hay không. Nếu nghi ngờ, hãy luôn kiểm tra nguồn của video.
Video nguồn deepfake: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.