Neustart der Erfahrung

Deep

fake

Lab

Das Geheimnis der Deepfakes lüften.


Erfahre in Geschichten über unsere praxisorientierte Forschung und anhand von Beispielen aus dem Internet, wie Deepfakes funktionieren. Und lerne visuelle Hinweise kennen, wie du sie identifizieren kannst.

01. Tesla-Baby

Sehen wir uns mal ein bekanntes Beispiel aus dem Internet an.

In diesem Video wurde ein Baby-Gesicht über das von Elon Musk gelegt. Der Face Swap ist die häufigste Art von Deepfakes. Schau genau hin: Die Kanten sind unscharf, die Hautfarbe ist anders.

Technische Details

Visuelle Fehler

Ein Deepfake wird von einem Computerprogramm erzeugt, das durch Analyse zahlreicher Bilder die Person ‘erlernt’. Das Programm legt dann das erzeugte Gesicht auf ein vorhandenes Video – eine Art digitaler Maske. Du kannst die Spuren einer solchen Maske in diesem Video sehen

Deepfake-Zielvideo

Deepfaked Video

02. DIY

Du kannst das auch zu Hause ausprobieren. Wir zeigen Dir, wie das geht.

Deepfake-Videos können mit Homecomputern gemacht werden, aber man braucht leistungsstarke Grafikkarten. Dieses Video zeigt unseren ersten Versuch, man sieht, warum geeignete Quellvideos wichtig sind.

Shia LaBeouf

Pilar

Ziel-Videoquelle: YouTube - Einfach machen!

Technische Details

Visuelle Fehler

Die Bilder, mit denen der Algorithmus trainiert wurde, enthielten nicht die richtigen Gesichtsausdrücke, um Shias Gesicht abzudecken, noch enthielten sie sein Gesicht im Profil. Wenn das neuronale Netzwerk nicht für so etwas trainiert ist, kann es keine akkurate digitale Maske generieren. Beachte, wie Shias eigentlicher Mund unter der Maske erscheint, was zwei Münder ergibt.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Prozess

Wie macht man also ein Deepfake?

Du brauchst zwei Videos: eine Quelle und ein Ziel. Das Programm trainiert sich; erstellt eine Maske aus dem Quellvideo, die mit Bearbeitungssoftware aufs Zielvideo gelegt werden kann.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Ziel-Videoquelle: Der Teufel trägt Prada | Andys Vorstellungsgespräch

Original

Datensatz

Maske

Anpassung

Deepfake

Nachbearbeitung

Wähle ein Zielvideo aus, in das Du ein Gesicht montieren willst. Nimm ein flüssiges Video mit einem konsistenten Hintergrund, so erhältst Du ein besseres Ergebnis.

04. Trainingsdaten

Was passiert, wenn wir das Programm mit mehr Inhalten füttern? Wird es besser?

Im Experiment bekamen zwei Programme eine unterschiedliche Anzahl Bilder. Mehr Quellmaterial verbessert klar das Ergebnis. Das Modell hatte mehr Informationen und konnte eine bessere Maske entwickeln.

Technische Details

Dieses Experiment fand mit dem gleichen Quellvideo statt, das mit zwei verschiedenen Bildraten exportiert wurde – beide Modelle wurden mit dem selben Studio-Aufbau trainiert. Die Zahl der Trainingszyklen pro Bild ist gleich, aber die Trainingszeit war mit dem größeren Datensatz länger. Man kann deutlich sehen, dass der mit mehr Bildern trainierte Algorithmus ein besseres Ergebnis produziert.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

05. Social-Media-Betrug

Wie anfällig bist Du? Können wir Deine Social-Media-Inhalte stehlen und ein gutes Deepfake erstellen?

Wir nahmen alle Facebook-Bilder einer unserer Teamkolleginnen und haben ein Deepfake erzeugt. In fast allen Bildern lächelte sie, daher konnte der Algorithmus keine nicht lächelnde Maske generieren.

Natalie Portman

Pilar

Technische Details

Visuelle Fehler

Ein Video enthält viel mehr Gesichtsnuancen als die Fotos, die wir von Facebook haben. Die Social Media Bilder unserer Teamkollegin sind von ihr ausgewählt, weshalb Bilder zur Erzeugung realistischer Gesichtsausdrücke fehlen. Obwohl bessere Technologie eventuell Gesichtsausdrücke fabrizieren könnte, ist es ohne vielfältiges Quellmaterial unmöglich überzeugende Ergebnisse zu erhalten.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Auswahl des Ziels

Wir haben gesehen, wie wichtig die Quelle beim Training des Algorithmus ist. Wie sieht es mit dem Zielvideo aus?

Selbst mit einer guten Quelle kann es schwer sein, ein Deepfake zu erzeugen. Indiana Jones enthält chaotische Aufnahmen. Der Algorithmus kommt im Vergleich zu den früheren reineren Videos schwerer mit.

Technische Details

Visuelle Fehler

Das Deepfake wurde mit einer Auflösung von 64 px exportiert. Durch die niedrigere Auflösung war das Algorithmus-Training kürzer, weil das Modell nur die Erzeugung eines gering auflösenden Bildes lernen musste. In Nahaufnahmen von Gesichtern wird die geringe Auflösung deutlich.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

07. Nicht zwinkern

Manchmal verschmelzen die Zwei. In diesem Video imitiert das Ziel sein neues Gesicht.

Dieses Deepfake-Video wurde aus einer Talkshowszene erstellt, in der Bill Hader Arnold Schwarzenegger imitiert. Durch die Verwendung von geeignetem Quellmaterial waren die Ergebnisse überzeugend.

Bill Hader

Arnold Schwarzenegger

Technische Details

Visuelle Fehler

Gesichtsangleichung, Hautfarbe und Auflösung sind sehr gut. Durch die Fernaufnahme ist es schwer, eine Unschärfe zu erkennen. Die Nachbearbeitung wurde fachmännisch ausgeführt. Der einzige Hinweis ist, wenn Bill Hader seinen Finger vors Gesicht führt und dieser hinter der Maske verschwindet. Schärfe und Winkel des Fingers unterscheiden sich, der Urheber scheint den Effekt in der Nachbearbeitung versteckt zu haben.

08. Zeit ist wichtig

Was passiert, wenn wir den Algorithmus mehr auf dem Quellinhalt üben lassen? Verbessert sich dadurch das Ergebniss?

Für dieses Experiment wurde ein Modell 4 Stunden lang trainiert und ein weiteres 48. Die Ergebnisse des 48-St.-Modells zeigten verbesserte Gesichtsdetails und ein dreidimensionaleres Gesicht.

Technische Details

Die Trainingszeit hängt davon ab, wie oft der Algorithmus die Bilder verarbeitet. Der Prozess ist, ein Gesicht (o. dig. Maske) zu erstellen, es mit dem Quellbild zu vergleichen und dann anzupassen, um die Ähnlichkeit der Maske zu verbessern. Das Modell durchläuft diesen Zyklus einmal für alle Quellbilder und startet dann neu. Die dafür benötigte Zeit hängt von der Leistung des Computers ab.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

09. Algorithmen

Ein letztes Experiment. Wie reagieren verschiedene Algorithmen auf bestimmte Bedingungen?

Für dieses Experiment haben wir Quell- und Zielvideo selbst hergestellt. Die Methoden des Algorithmus sind klar erkennbar. H128 erzeugt eine Quadratmaske, und SAHD stimmt besser mit dem Gesicht überein.

Arthur

Andrej

Technische Details

H128 ist das leichtere Modell. Es erreicht schneller Qualitätsergebnisse. Die präzisere SAEHD-Maske wird besser mit der Hand und der Anpassung der Beleuchtung fertig. H128 scheint besser trainiert für die Maske zu sein: Sie ist schärfer, stabiler und führt bessere Bewegungen und Perspektivänderungen aus. Aber Experten sagen, dass SAEHD mit mehr Trainingszeit H128 übertreffen wird.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Wachsam sein

Schauen wir mal, was mit Deepfake-Videos wirklich passiert.

Deepfakes können hochqualitativ und schwer zu erkennen sein. Wir haben uns aufs Vertauschen konzentriert, doch können sie auch für Nachahmungen genutzt werden: Sie legen einer Person Worte in den Mund.

Technische Details

Nachahmungen brauchen viel mehr Rechenleistung, sind aber viel schwerer zu erkennen. Viele der Herausforderungen an Quellvideos gelten nicht für Nachahmungen, aber der Algorithmus ist ähnlich. Die nachgeahmten Gesichtsteile sind leicht unscharf und weniger detailliert.

Achte auch auf den Ton oder suche nach Fehlern oder Lippensynchronisationsproblemen. Hinterfrage, mit den Erkenntnissen die Du auf dieser Website gelernt hast, ob ein Video ein geeignetes Ziel ist und die Bedingungen für ein mögliches Deepfake gegeben sind. Wenn Du Zweifel hast, überprüfe immer die Quelle des Videos.

Hier ein Überblick über das Wissen, das Du auf dieser Website gewonnen hast. So kannst Du selber Videos prüfen.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0