Restarting the experience
გადახედე მასალებს და გაიგე, როგორ იქმნება დიფფეიკები და როგორ შეგიძლია მათი ამოცნობა სხვადასხვა ვიზუალური მინიშნებით.
ბავშვის სახე ილონ მასკის სახით გადაფარეს - სახეების გადანაცვლება დიფფეიკის ერთ-ერთი ყველაზე გავრცელებული ფორმაა. თუმცა ახლოდან დააკვირდი - კანის ფერები არ ემთხვევა და კიდეები უსწორმასწოროა.
ტექნიკური დეტალები
ვიზუალური ხარვეზები
კანის ფერი: სახის კანის ფერები ერთმანეთს არ ემთხვევა, რის გამოც აშკარად ჩანს კიდეები და ლაქები.
დიფფეიკი იქმნება თვითდასწავლის უნარის მქონე კომპიუტერული პროგრამით, რომელსაც დიდი რაოდენობით ფოტოების გაანალიზება და ე.წ. ციფრული ნიღბის შექმნა შეუძლია.
Target Video
Deepfaked Video
ორიგინალი ვიდეო: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
დიფფეიკი ვიდეო: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
დიფფეიკი ვიდეო შეგიძლია დღესვე შექმნა სახლის კომპიუტერით, მაგრამ ცოტა ძლიერი გრაფიკული ადაპტერი დაგჭირდება. ჩვენი პირველი ვიდეოთი კი გვინდა, გაჩვენოთ, თუ რამდენად მნიშვნელოვანია სწორი მასალის გამოყენება.
Shia LaBeouf
Pilar
ტექნიკური დეტალები
ვიზუალური ხარვეზები
კანის ფერი: სახის კანის ფერები ერთმანეთს არ ემთხვევა, რის გამოც აშკარად ჩანს კიდეები და ლაქები.
აცდენილი გამომეტყველებები: ციფრული ნიღბისა და ორიგინალი სახის გამომეტყველებები ზუსტად არ შეესაბამება ერთმანეთს, რის გამოც დიფფეიკ ვიდეოში სახის ნაკვთები ბუნდოვანი ან გაორებულია.
უსწორმასწორო კიდეები: გამოუცდელი თვალიც მარტივად აღიქვამს ნიღბის კიდეების კონტრასტს წყაროს სახესთან.
ფოტოებზე, რომლებიც ალგორითმის სწორად ასამუშავებლად უნდა გამოგვეყენებინა, არ იყო ასახული სახის ისეთი გამომეტყველებები, რომ შეუმჩნევლად გადაგვეფარა შიას სახე ვიდეოში. ალგორითმი ვერ შექმნის სწორ დიფფეიკს, თუ ასეთი სიტუაციებისთვის ტექნიკურად გაუმართავია. დააკვირდი - შიას პირი ზოგჯერ ციფრული ნიღბის ქვემოდან ჩნდება, რაც ილუზიას ქმნის, რომ ვიდეოში წარმოდგენილ ადამიანს ორი პირი აქვს.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
გჭირდება ორი ვიდეო: წყარო და ორიგინალი. ალგორითმი თვითონვე შეისწავლის ორივე სახეს, შემდეგ კი წყაროდან სახეს აიღებს და ორიგინალ ვიდეოს გადაადებს.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
ორიგინალი ვიდეო: The Devil Wears Prada
| Andy's Interview
ორიგინალი
ჩასანაცვლებელი ვიდეო
ნიღაბი
შესაბამება
დიფფეიკი
შემდეგ
შეარჩიე ვიდეო, რომლის დამუშავებაც გინდა. რაც უფრო სტაბილურ ვიდეოს აარჩევ, მით უკეთესი იქნება საბოლოო პროდუქტი.
შეარჩიე სახე და მონაცემები, რომლებიც ორიგინალ ვიდეოში უნდა გადაიტანო. ეცადე, გამომეტყველებები და შუქი მაქსიმალურად შეუსაბამო ორიგინალ ვიდეოს.
ორიგინალ ვიდეოში გადაფარე სხვა ადამიანების სახეები, რათა ალგორითმმა უკეთ დააფიქსიროს სამიზნე სახე.
ალგორითმი საჭირო სახეებს ამოჭრის და დაიმახსოვრებს მათ თავდაპირველ ადგილმდებარეობას, რათა შემდეგ ნიღაბი ზუსტად მოარგოს.
ალგორითმი წყაროს ვიდეოდან ქმნის ნიღაბს, რომელიც შემდეგ ორიგინალს უნდა შეუსაბამო.
შეუსაბამობები და სხვა ვიზუალური დეტალები ვიდეო მონტაჟის პროგრამით შეასწორე.
ამ ექსპერიმენტის ორგანიზატორებმა ორ პროგრამაში სხვადასხვა რაოდენობის მონაცემები ჩაწერეს. როგორც აღმოჩნდა, რაც უფრო მეტი მასალა აქვს ალგორითმს, მით უკეთესია საბოლოო ვიდეოც.
ტექნიკური დეტალები
ერთი და იმავე მეთოდით დამუშავებული ვიდეო განსხვავებული კადრის სიხშირეებითაა გადმოწერილი. პროცესი ერთია, თუმცა ვიდეოს, რომლისთვისაც მრავალფეროვანი მონაცემებია გამოყენებული, მეტი დრო დასჭირდა დამუშავებისთვის. აშკარაა, რომ ამ მოდელმა პროდუქტიც უკეთესი შექმნა.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
ორიგინალი ვიდეო: Sherlock | The Reichenbach Fall | Rooftop Showdown
ჩვენი თანამშრომლის Facebook ანგარიშიდან ყველა ფოტო გადმოვწერეთ დიფფეიკის შესაქმნელად. თუმცა ალგორითმმა ვერ შეძლო განსხვავებული გამომეტყველებების პროცესირება, რადგან პილარი თითქმის ყველა ფოტოში იღიმის.
Natalie Portman
Pilar
ორიგინალი ვიდეო: Star Wars: Episode I – The Phantom Menace | Padmé meets Anakin
ტექნიკური დეტალები
ვიზუალური ხარვეზები
ბუნდოვანი სახე: ნიღაბი ბუნდოვანია. რეზოლუციის განსხვავება წყაროსა და ორიგინალს შორის კონტრასტულად ჩანს.
აცდენილი გამომეტყველებები: ციფრული ნიღბისა და ორიგინალი სახის გამომეტყველებები ზუსტად არ შეესაბამება ერთმანეთს, რის გამოც დიფფეიკ ვიდეოში სახის ნაკვთები ბუნდოვანი ან გაორებულია.
პროფილის კიდეები: ალგორითმში ჩაწერილი ფოტოები აცდენილია გვერდიდან გადაღებულ კადრებს.
ორიგინალი ვიდეო გაცილებით მეტ ნიუანსს შეიცავს, ვიდრე ჩვენი თანამშრომლის ფოტოები. ცხადია, სოციალური მედიის მომხმარებლები ყველა ტიპის ფოტოს არ ვაქვეყნებთ, რის გამოც დიფფეიკი რეალისტური ვერ იქნება. მიუხედავად იმისა, რომ ახალ ტექნოლოგიებს გამომეტყველების ხელოვნურად შექმნა შეუძლია, ციფრულად დამუშავებული სურათი მაინც არაა ისეთი დამაჯერებელი, როგორიც ბუნებრივი წყარო.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
თუნდაც იდეალური მონაცემთა ბაზა გქონდეს, დიფფეიკის შექმნა მაინც არაა მარტივი. ინდიანა ჯონსის ქაოსური სცენების დამუშავება გაცილებით რთულია ალგორითმისთვის, წინა სექციებში წარმოდგენილ მაგალითებთან შედარებით.
ტექნიკური დეტალები
ვიზუალური ხარვეზები
ბუნდოვანი სახე: ნიღაბი ბუნდოვანია. რეზოლუციის განსხვავება წყაროსა და ორიგინალს შორის კონტრასტულად ჩანს.
ციმციმის ეფექტი: ორიგინალ და დიფფეიკ სახეებს შორის პატარ-პატარა შუალედებია, რომლებიც ციმციმის შთაბეჭდილებას ტოვებს. ალგორითმი ამ მომენტებში ვერ ამჩნევს სახეს და ნიღაბი წამიერად ქრება.
არასწორი ფოკუსი: დიფფეიკი და ორიგინალი ვიდეო სხვადასხვა რაკურსითაა გადაღებული.
ამ დიფფეიკის რეზოლუცია 64 px-ია. რაც უფრო დაბალი ხარისხის ფოტოებს ავარჩევთ, მით უფრო ნაკლები დრო დასჭირდება ალგორითმს ვიდეოს დასამუშავებლად. თუმცა, სურათებს თუ მიაახლოებ, უფრო აშკარად დაინახავ ვიზუალურ ხარვეზებს.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
ორიგინალი ვიდეო: Indiana Jones and the Temple of Doom | Rope Bridge Fight
ეს დიფფეიკი ვიდეო ამოღებულია თოქშოუს სეგმენტიდან, რომელშიც ბილ ჰეიდერი არნოლდ შვარცნეგერს განასახიერებს. მასალა კარგადაა შერჩეული, შესაბამისად, დიფფეიკიც დამაჯერებელია.
Bill Hader
Arnold Schwarzenegger
ორიგინალი ვიდეო: Bill Hader Presents: Schwarzenegger Baby
დიფფეიკი ვიდეო: YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
ტექნიკური დეტალები
ვიზუალური ხარვეზები
სახის გადაფარვა: როცა სახის წინ რაიმე მოძრაობს, ციფრული ნიღაბი ხარვეზდება.
ხარისხი, კანის ტონალობა და რეზოლუცია ძალიან კარგია. გარდა ამისა, იქიდან გამომდინარე, რომ კადრი გარკვეული დისტანციიდანაა გადაღებული, დიფფეიკი არაა ბუნდოვანი. ერთადერთი ხარვეზი ისაა, რომ, როცა ბილ ჰეიდერი ხელს სახის წინ ამოძრავებს, მისი თითი ციფრული ნიღბის უკან იკარგება. როგორც ვიზუალური სიმკვეთრის ცვლილებიდან ჩანს, ვიდეოს ავტორმა სცადა ამ ხარვეზის გადაფარვა.
ამ ექსპერიმენტში ერთ მოდელს ოთხი საათი მისცეს მასალის შესასწავლად, მეორეს კი - 48. მეორე მოდელმა გაუმჯობესებული შედეგები აჩვენა: დეტალები გაცილებით ხარისხიანი იყო და ნიღაბს უფრო მეტად ეტყობოდა სამგანზომილებიანი გრაფიკები.
ტექნიკური დეტალები
დიფფეიკის დამუშავების პროცესი ასეთია: პროგრამა ჯერ ციფრულ ნიღაბს ქმნის, შემდეგ ადარებს ორიგინალ ვიდეოს და ცდილობს, რომ მასალები ერთმანეთს მაქსიმალურად შეუსაბამოს. როცა ყველა სურათს გაივლის, ამ პროცესს თავიდან იწყებს. ჯამური დრო კომპიუტერის სიმძლავრეზეა დამოკიდებული.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
ამ ექსპერიმენტის ჩასატარებლად მასალა ჩვენვე შევქმენით. ალგორითმის ტექნიკური მახასიათებლები ვიზუალურადაც აშკარაა: H128 კვადრატულ ნიღაბს ქმნის, SAEHD კი უკეთესად ახერხებს ვიდეოების ერთმანეთთან შეხამებას.
Arthur
Andrej
ტექნიკური დეტალები
H128 შედარებით მსუბუქი მოდელია - უფრო სწრაფად ქმნის პროდუქტს. SAEHD-ის უპირატესობა კი ისაა, რომ უკეთ ასწორებს დეტალებსა და სხვა ვიზუალურ ხარვეზებს. როგორც ჩანს, H128 სჯობს SAEHD-ს, თუ სწრაფი და ხარისხიანი ვიდეოს შექმნა გვინდა. მაგრამ, ექსპერტების თქმით, SAEHD უკეთეს შედეგს აჩვენებს, თუ მასალის შესასწავლად მეტ დროს მივცემთ.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
გაითვალისწინე, რომ ზოგი დიფფეიკის ამოცნობა რთულია, ხარისხიდან გამომდინარე. გარდა იმ მაგალითებისა, რომლებსაც ზემოთ გაეცანი, დიფფეიკი შეიძლება ვერბალური მანიპულირებისთვისაც გამოიყენონ - თითქოს ადამიანმა რაღაც თქვა, რაც რეალურად არ უთქვამს.
ტექნიკური დეტალები
ვერბალური მანიპულირების დამუშავებას მეტი დრო სჭირდება, თუმცა მისი ამოცნობა გაცილებით რთულია. მიუხედავად იმისა, რომ ალგორითმი მსგავსია, ზემოთ ჩამოთვლილი ხარვეზები თითქმის არ ეხება ამ ტიპის დიფფეიკს.
დიფფეიკის ამოსაცნობად დააკვირდი, სახის რომელიმე ნაწილი ოდნავ მაინც თუ არის ბუნდოვანი. გარდა ამისა, შეიძლება აუდიო და ვიდეო არ იყოს სინქრონიზებული ან რაიმე სხვა ტიპის ხარვეზი ემჩნეოდეს ხმას. როცა ისეთი შინაარსის ვიდეოს გადააწყდები, როგორითაც დიფფეიკების შემქმნელები დაინტერესდებოდნენ, ამ აპლიკაციით ნასწავლი მეთოდები გამოიყენე, რათა არ მოტყუვდე. თუ მაინც დაეჭვდები, აუცილებლად გადაამოწმე ვიდეოს წყაროც.
დიფფეიკი ვიდეო: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.