Restarting the experience

Deep

fake

Lab

Vén bức màn bí ẩn về deepfake.

Tìm hiểu cách thức hoạt động của deepfake và các manh mối bằng hình ảnh mà bạn có thể sử dụng để nhận biết chúng, thông qua các câu chuyện nghiên cứu thực tế của chúng tôi và các ví dụ trên web.

01. Con trai của ông chủ Tesla

Hãy cùng xem một ví dụ phổ biến từ Internet.

Trong video này, khuôn mặt Elon Musk đã được phủ lên khuôn mặt của một em bé. Kiểu hoán đổi này là cách sử dụng deepfake phổ biến nhất. Nhìn kỹ, bạn sẽ thấy góc cạnh không sắc nét và màu da khác hẳn.

Thông tin kỹ thuật

Khiếm khuyết trong hình ảnh

Deepfake được tạo ra bởi một chương trình máy tính có thể tự dạy cách tái tạo khuôn mặt bằng cách phân tích nhiều hình ảnh khác nhau của người đó. Sau đó, chương trình sẽ phủ khuôn mặt đã tái tạo lên một video sẵn có - như mặt nạ kỹ thuật số. Có thể thấy dấu vết của chiếc mặt nạ như vậy dưới đây:

Target Video

Deepfaked Video

02. Tự làm

Bạn cũng có thể thử điều này tại nhà. Chúng tôi sẽ chỉ cho bạn cách làm.

Video deepfake có thể được tạo bằng máy tính gia đình, nhưng cần có card đồ họa mạnh. Video này trình bày thử nghiệm đầu tiên của chúng tôi, cho biết lý do tại sao cần sử dụng video nguồn phù hợp.

Thông tin kỹ thuật

Khiếm khuyết trong hình ảnh

Các hình ảnh được sử dụng để dạy thuật toán không có biểu cảm khuôn mặt phù hợp để che phủ khuôn mặt của Shia trong video, cũng như khuôn mặt của anh ấy trong hồ sơ. Nếu mạng nơ-ron không được dạy cho trường hợp này, nó không thể tạo ra mặt nạ số chính xác. Hãy để ý cách miệng của Shia xuất hiện từ bên dưới mặt nạ, dẫn tới việc có đến hai cái miệng cùng lúc.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Quy trình

Vậy, làm thế nào để tạo ra deepfake?

Bạn cần hai video: một video nguồn và một video đích. Chương trình sẽ tự học bằng cách sử dụng cả hai video và tạo mặt nạ từ video nguồn để phủ lên video đích bằng phần mềm chỉnh sửa.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Nguồn video đích: The Devil Wears Prada | Andy's Interview

Nguồn

Tập dữ liệu

Mặt nạ

Căn chỉnh

Deepfake

Bài đăng

Chọn một video đích mà bạn muốn chèn khuôn mặt vào. Chọn video ổn định với phông nền trơn sẽ mang lại kết quả tốt hơn.

04. Dữ liệu Đào tạo

Điều gì sẽ xảy ra nếu chúng ta cung cấp cho chương trình nhiều nội dung hơn? Liệu kết quả có được cải thiện không?

Trong thử nghiệm này, một số hình ảnh được đưa ra cho hai chương trình. Càng nhiều dữ liệu nguồn thì kết quả sẽ càng tốt hơn. Mô hình có thêm thông tin về khuôn mặt thì xây dựng mặt nạ giống hơn.

Thông tin kỹ thuật

Thử nghiệm này được tiến hành với cùng một video nguồn được xuất ở hai tốc độ khung hình khác nhau - cả hai mô hình đều được đào tạo với bối cảnh studio giống hệt nhau. Số lượng chu kỳ đào tạo trên mỗi hình ảnh là bằng nhau, nhưng tập dữ liệu lớn hơn có thời gian đào tạo lâu hơn. Có thể thấy rõ rằng thuật toán được đào tạo với nhiều hình ảnh hơn có kết quả tốt hơn và phù hợp hơn với video đích.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

05. Lừa đảo trên mạng xã hội

Bạn dễ bị ảnh hưởng đến mức nào? Liệu chúng tôi có thể ăn cắp nội dung trên mạng xã hội của bạn và tạo ra một deepfake có chất lượng không?

Chúng tôi đã lấy tất cả hình ảnh trên Facebook của một thành viên trong nhóm và tạo một deepfake. Cô ấy cười trong hầu hết các ảnh nguồn, vì vậy thuật toán không thể tạo ra mặt nạ không cười.

Natalie Portman

Pilar

Thông tin kỹ thuật

Khiếm khuyết trong hình ảnh

Một video chứa nhiều sắc thái khuôn mặt hơn những hình ảnh được lấy từ Facebook. Các bức ảnh của thành viên nhóm trên mạng xã hội là do chúng tôi tự chọn và do đó thiếu loại hình ảnh cần thiết để tạo biểu cảm khuôn mặt thực tế khi nói. Mặc dù các công nghệ tốt hơn có thể tạo ra các biểu cảm khuôn mặt, nhưng nếu không có tư liệu nguồn đa dạng thì không thể tạo ra kết quả thuyết phục.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Lựa chọn video đích

Ngay cả khi có tư liệu nguồn tốt, vẫn rất khó để tạo deepfake. Indiana Jones có những cảnh quay lộn xộn. So với các video rõ hơn, thuật toán gặp khó khăn trong việc tạo video deepfake này.

Thông tin kỹ thuật

Khiếm khuyết trong hình ảnh

Deepfake được xuất ra với độ phân giải 64 px. Độ phân giải thấp hơn có nghĩa là thời gian đào tạo thuật toán sẽ ngắn hơn, vì mô hình chỉ phải học cách tạo ra hình ảnh có độ phân giải thấp. Trong ảnh chụp cận cảnh khuôn mặt thì rõ ràng độ phân giải sẽ thấp.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

07. Đừng chớp mắt

Đôi khi cả hai tan vào nhau. Trong video này, nhân vật đích thậm chí còn bắt chước khuôn mặt mới của anh ta.

Video deepfake này được tạo từ một phân đoạn talk show trong đó Bill Hader giả làm Arnold Schwarzenegger. Bằng cách sử dụng tư liệu nguồn phù hợp cho Arnold Schwarzenegger, kết quả rất thuyết phục.

Bill Hader

Arnold Schwarzenegger

Thông tin kỹ thuật

Khiếm khuyết trong hình ảnh

Sự hòa trộn khuôn mặt, tông da và độ phân giải đều rất tốt. Ảnh chụp từ xa khiến bạn khó nhìn thấy bất kỳ vết mờ nào. Phần hậu kỳ được thực hiện một cách chuyên nghiệp. Nhược điểm duy nhất là khi Bill Hader di chuyển ngón tay trước mặt, nó biến mất sau mặt nạ. Sự khác biệt về độ sắc nét và góc của ngón tay cho thấy người tạo video đã cố gắng che giấu hiệu ứng trong phần hậu kỳ.

08. Thời gian cũng quan trọng

Điều gì sẽ xảy ra nếu chúng ta để thuật toán thực hành nhiều hơn trên nội dung nguồn? Liệu kết quả có được cải thiện không?

Trong thử nghiệm này, một mô hình được đào tạo trong 4 giờ và mô hình còn lại trong 48 giờ. Kết quả mô hình 48 giờ cho thấy chi tiết khuôn mặt tốt hơn và khuôn mặt có hình ảnh ba chiều rõ rệt hơn.

Thông tin kỹ thuật

Thời gian đào tạo liên quan đến số lần thuật toán xử lý hình ảnh. Quá trình này bao gồm bước tạo khuôn mặt (hoặc mặt nạ số), so sánh với hình ảnh nguồn, sau đó điều chỉnh để cải thiện mức độ giống nhau giữa mặt nạ với nguồn. Mô hình trải qua chu kỳ này một lần cho tất cả các ảnh nguồn và sau đó lại bắt đầu lại. Thời gian cần thiết tùy thuộc vào mức độ mạnh mẽ của máy tính được sử dụng.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

09. Thuật toán

Một thử nghiệm cuối cùng. Làm thế nào để các thuật toán khác nhau phản ứng với các điều kiện nhất định?

Trong thử nghiệm này, chúng tôi tự tạo cả video nguồn và video đích. Chúng ta có thể thấy rõ các phương pháp của thuật toán. H128 tạo ra mặt nạ hình vuông trong khi SAEHD giống với khuôn mặt hơn.

Arthur

Andrej

Thông tin kỹ thuật

H128 nhẹ hơn trong hai mô hình. H128 nhanh chóng đạt được kết quả tốt hơn. Mặt nạ chính xác hơn của SAEHD có khả năng xử lý tay và hòa hợp với ánh sáng tốt hơn. H128 dường như được đào tạo tốt hơn để tạo khuôn mặt: mặt nạ sắc nét, ổn định và hoạt động tốt hơn với các thay đổi về chuyển động và góc nhìn. Tuy nhiên, các chuyên gia cho rằng nếu thời gian đào tạo nhiều hơn thì SAEHD sẽ tốt hơn H128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Lưu ý

Hãy xem điều gì đang thực sự xảy ra với các video deepfake.

Lưu ý: deepfake có thể có chất lượng cao và khó phát hiện. Mặc dù phần này chủ yếu tập trung vào hoán đổi khuôn mặt, deepfake cũng có thể tái hiện khuôn mặt, giống như một người đang nói gì đó.

Thông tin kỹ thuật

Tái hiện khuôn mặt cần nhiều khả năng tính toán hơn nhưng cũng khó nhận biết hơn nhiều. Việc này sẽ khó khăn hơn do video nguồn không sử dụng cho việc tái hiện, nhưng thuật toán hoạt động theo cách tương tự. Các bộ phận được tái hiện của khuôn mặt sẽ hơi mờ và kém chi tiết.

Ngoài ra, hãy chú ý đến âm thanh và tìm khuyết điểm hoặc nhép môi. Sử dụng thông tin chi tiết bạn đã học được trên trang web này, hãy đặt câu hỏi liệu một video có khả năng trở thành video đích hay không và liệu các điều kiện có phù hợp để có thể tạo ra deepfake hay không. Nếu nghi ngờ, hãy luôn kiểm tra nguồn của video.

Dưới đây là nội dung tóm tắt hữu ích về các kỹ năng bạn học được trên trang web này để bạn có thể tự mình kiểm tra các video.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0