Reiniciando la experiencia

Deep

fake

Lab

Destapando el misterio de los últrafalsos.

Descubre cómo funcionan los deepfakes (‘ultrafalsos’) y aprende a utilizar criterios visuales para identificarlos a través de nuestros relatos de investigación práctica y ejemplos de internet.

01. Tesla Baby (Bebé Tesla)

Vamos a ver un ejemplo conocido en internet.

En este vídeo, se tapa el rostro de Elon Musk con la cara de un bebé. Este tipo de intercambio de rostro es el uso más común de los deepfakes. Mira con atención: los bordes no son tan nítidos y el color de piel es diferente.

Detalles técnicos

Defectos del vídeo

Los deepfakes se crean a través programas de ordenador que aprenden por su cuenta a reproducir un rostro analizando imágenes de una persona. Después, el programa toma el rostro y lo sobrepone en otra cara de un vídeo que ya existe – como una especie de máscara digital. Puedes ver evidencias de este tipo de máscara en este vídeo.

Vídeo original

Vídeo Manipulado

02. Hazlo tú

Puedes probarlo en casa. Te enseñamos cómo.

Se pueden hacer vídeos deepfake con ordenadores caseros, pero necesitas una tarjeta gráfica bastante potente. Este vídeo muestra nuestra primera prueba y revela por qué es importante utilizar un buen material como punto de partida (fuente de vídeo).

Detalles técnicos

Defectos del vídeo

Las imágenes utilizadas para entrenar al algoritmo no contenían las expresiones faciales adecuadas para cubrir la cara de Shia en el vídeo, ni referencias de su cara de perfil. Si la red neural no se entrena para estas situaciones, no puede generar una máscara digital precisa. Fíjate como la boca de Shia aparece debajo de la máscara, formando dos bocas.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

H64

Project reach

200

/2000 images

106000

/268000 times

64

/128 pixels

31

/63 hours

03. Proceso

¿Cómo creas un deepfake?

Necesitas dos vídeos: fuente y destino. El programa se entrena a sí mismo utilizando ambos y crea una máscara a partir del vídeo fuente que puede sobreponerse al rostro del vídeo destino utilizando un software de edición.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

750

/2000 images

200000

/268000 times

128

/128 pixels

48

/63 hours




Fuente de vídeo original:El diablo viste a la Moda | Entrevista de Andy

Original

Conjunto
de datos

Máscara

Alineamiento

Deepfake

Post-producción

Selecciona un vídeo destino donde quieras insertar el rostro. Escoge uno donde no se mueva mucho la imagen y que siempre tenga el mismo fondo para conseguir un mejor resultado.

04. Datos de entrenamiento

¿Qué pasa si le damos al programa más datos? ¿Mejorará?

En este experimento, alimentamos a dos programas con cantidades diferentes de imágenes. Cuantos más datos fuente tengamos, mejor será el resultado. El modelo que utilizamos contaba con más información facial y pudo desarrollar una mejor máscara.

Detalles técnicos

Este experimento se realizó con el mismo vídeo fuente exportado a dos velocidades de fotogramas diferentes –ambos modelos fueron entrenados con la misma configuración de estudio. La cantidad de ciclos de entrenamiento por imagen fueron iguales, pero el tiempo de entrenamiento duró más con el conjunto de datos más grande. Se puede observar que el algoritmo entrenado con más imágenes produce un resultado más preciso que se ajusta mejor al vídeo destino.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

200

/2000 images

200000

/20000

/268000 times

128

/128 pixels

8

/63 hours

Benedict Cumberbatch

Arthur

05. Fraude Social

¿Qué tan susceptible eres? ¿Podemos robar tus contenidos de redes sociales y crear un buen deepfake?

Tomamos todas las imágenes de Facebook de un integrante de nuestro equipo de trabajo y creamos un deepfake. En casi todas las imágenes fuente la persona estaba sonriendo así que el algoritmo no podía generar una máscara que no fuera sonriente.

Detalles técnicos

Defectos del vídeo

Un vídeo contiene muchos más matices faciales que las imágenes que tomamos de Facebook. Las fotos que tiene nuestra compañera de trabajo en sus cuentas de redes sociales fueron escogidas por ella y, por tanto, falta el tipo de imágenes que necesitamos para crear un rostro hablando con expresiones faciales realistas. Sin una diversidad de material de base, es imposible crear algo convincente.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

165

/2000 images

215000

/268000 times

128

/128 pixels

44

/63 hours

06. Elección del objetivo

Hemos comprobado que el material de base es importante para entrenar un algoritmo. ¿Qué pasa con el resultado del vídeo (vídeo destino)?

Incluso partiendo de un buen material fuente, puede ser difícil crear un deepfake. Indiana Jones tiene tomas caóticas. Comparado con los vídeos más sencillos (imágenes menos movidas, elementos más simples) que utilizamos antes, al algoritmo le va a costar estar a la altura.

Detalles técnicos

Defectos del vídeo

El deepfake se exportó con una resolución de 64px. Una resolución más baja implica pasar menos tiempo entrenando al algoritmo porque el modelo solo tiene que aprender a crear una imagen de baja resolución. En las tomas detalle de caras, se nota la resolución baja.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

1400

/2000 images

100000

/268000 times

64

/128 pixels

8

/63 hours

Harrison Ford

Andrej

07. Sin parpadear

A veces los dos se funden. En este vídeo, el rostro trucado hasta imita su nuevo rostro.

Este vídeo deepfake se hizo a partir de un programa de entrevistas donde Bill Hader imita a Arnold Schwarzenegger. Los resultados fueron convincentes porque utilizaron un buen material de base de Arnold Schwarzenegger.

Bill Hader

Arnold Schwarzenegger

Detalles técnicos

Defectos del vídeo

La fusión de rostros, el tono de piel y la resolución son buenas. Como la toma es a lo lejos (un plano muy abierto), es difícil darse cuenta de los elementos borrosos. La post-producción se realizó con mucha destreza. Lo único que delata el deepfake es cuando Bill Hader mueve su dedo por delante de su cara y desaparece por debajo de la máscara. La diferencia de nitidez y el ángulo del dedo sugieren que intentaron esconder el efecto en la post-producción.

08. El tiempo cuenta

¿Qué pasa si dejamos que el algoritmo practique más tiempo con el contenido fuente? ¿Mejorarán los resultados?

Para este experimento, se entrenó modelo A durante cuatro horas y modelo B durante 48. Los resultados del modelo B mostraron mejores detalles faciales y un rostro más tridimensional.

Detalles técnicos

El tiempo de entrenamiento se relaciona con el número de veces que el algoritmo procesa las imágenes. El proceso implica crear un rostro (o máscara digital), compararla con la imagen fuente y realizar ajustes para mejorar la semblanza entre la máscara y el rostro original. El modelo repite este ciclo para cada una de las imágenes fuente. El tiempo que toma depende de los recursos y capacidad del ordenador.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

Project reach

400

/400

/2000 images

20000

/268000 times

128

/128 pixels

4

/48

/63 hours

09. Algoritmos

Un último experimento. ¿Cómo responden diferentes algoritmos a determinadas condiciones?

Para este experimento, creamos tanto el vídeo fuente como el vídeo destino por nuestra cuenta. Los métodos del algoritmo eran claramente visibles. H128 crea una máscara cuadrada mientras SAEHD se ajusta mejor al rostro.

Arthur

Andrej

Detalles técnicos

H128 es un modelo más liviano. Logra resultados de calidad más rápido. La máscara más precisa de SAEHD es más apta lidiar con la mano e integrarse con la iluminación. Parece que H128 está mejor entrenado para crear rostros: la máscara es más nítida, estable y se adapta mejor al movimiento y cambio de perspectivas y ángulos. Sin embargo, expertos dicen que con más tiempo de entrenamiento, SAEHD produce mejores resultados que H128.

Algorithm

Dataset size

Iteration amount

Output resolution

Training time

SAEHD

H128

Project reach

500

/500

/2000 images

150000

/150000

/268000 times

128

/128 pixels

24

/40

/63 hours

10. Presta atención

Vamos a ver qué está pasando de verdad con los vídeos deepfake.

Presta atención: los deepfakes pueden ser de alta calidad y difíciles de detectar. Aunque nos hemos centrado en intercambio de rostros, los deepfakes también pueden ser utilizados para imitar caras –para fingir que alguien dijo algo.

Detalles técnicos:

La recreación facial es mucho más difícil de detectar, pero necesita ordenadores más potentes. Muchos de los desafíos que mencionamos anteriormente no aplican a este tipo de técnica. El algoritmo funciona de manera parecida. Las partes recreadas son ligeramente borrosas y con un poco menos de detalle.

Presta atención también al audio y busca defectos o problemas de lip-sync. Poniendo en práctica lo que aprendiste en este sitio web, hazte preguntas sobre los vídeos: ¿crees que es probable que lo utilizen para hacer un deepfake? ¿Tienen elementos y características que lo permiten? Si tienes duda de si un vídeo es un deepfake, verifica su fuente.

Aquí tienes un resumen útil de las habilidades que adquiriste en este sitio web para que puedas echar un vistazo a vídeos por tu cuenta.

All the original deepfakes in this project were created with the open source software DeepFaceLab v10.1 by Iperov, under the GNU General Public License v3.0