Reiniciando la experiencia
Descubre cómo funcionan los deepfakes (‘ultrafalsos’) y aprende a utilizar criterios visuales para identificarlos a través de nuestros relatos de investigación práctica y ejemplos de internet.
Detalles técnicos
Defectos del vídeo
Desajuste del color de piel: el tono de piel entre la máscara y el rostro resultado no coinciden. El rostro parece estar cubierto por una capa de colores. Se observan bordes o manchas.
Los deepfakes se crean a través programas de ordenador que aprenden por su cuenta a reproducir un rostro analizando imágenes de una persona. Después, el programa toma el rostro y lo sobrepone en otra cara de un vídeo que ya existe – como una especie de máscara digital. Puedes ver evidencias de este tipo de máscara en este vídeo.
Vídeo original
Vídeo Manipulado
Fuente de vídeo original: YouTube | AndrewSchrock | Cutest Baby Montage Ever.
Fuente de vídeo manipulado: YouTube | TheFakening | Baby Elon Musk Montage Deepfake
Shia LaBeouf
Pilar
Detalles técnicos
Defectos del vídeo
Desajuste del color de piel: el tono de piel entre la máscara y el rostro final no coinciden. El rostro parece estar cubierto por una capa de colores. Se observan bordes o manchas.
Signos de desajuste: las expresiones del rostro deepfake no coinciden con el rostro resultado. Los rasgos faciales no se comportan de manera natural y son invisibles, borrosos o salen repetidos.
Bordes visibles: los bordes de la máscara son visibles: contornos nítidos o borrosos alrededor del rostro.
Las imágenes utilizadas para entrenar al algoritmo no contenían las expresiones faciales adecuadas para cubrir la cara de Shia en el vídeo, ni referencias de su cara de perfil. Si la red neural no se entrena para estas situaciones, no puede generar una máscara digital precisa. Fíjate como la boca de Shia aparece debajo de la máscara, formando dos bocas.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
H64
Project reach
200
/2000 images
106000
/268000 times
64
/128 pixels
31
/63 hours
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
750
/2000 images
200000
/268000 times
128
/128 pixels
48
/63 hours
Fuente de vídeo original:El diablo viste a la Moda | Entrevista de Andy
Original
Conjunto
de datos
Máscara
Alineamiento
Deepfake
Post-producción
Selecciona un vídeo destino donde quieras insertar el rostro. Escoge uno donde no se mueva mucho la imagen y que siempre tenga el mismo fondo para conseguir un mejor resultado.
Graba un conjunto de datos para el rostro que quieras insertar (material fuente), buscando que la iluminación y las expresiones faciales coincidan lo máximo posible.
Cubre las caras de las demás personas en el vídeo destino para evitar que el algoritmo se confunda.
El algoritmo recortará los rostros para utilizarlos en su entrenamiento y guardará su posición para poder colocar la máscara en el lugar adecuado después.
El algoritmo genera una máscara del rostro del vídeo fuente que después tendrá que alinear en el vídeo destino.
Los programas de edición de vídeo te permitirán integrar la máscara mejor y perfeccionar el resultado final.
Detalles técnicos
Este experimento se realizó con el mismo vídeo fuente exportado a dos velocidades de fotogramas diferentes –ambos modelos fueron entrenados con la misma configuración de estudio. La cantidad de ciclos de entrenamiento por imagen fueron iguales, pero el tiempo de entrenamiento duró más con el conjunto de datos más grande. Se puede observar que el algoritmo entrenado con más imágenes produce un resultado más preciso que se ajusta mejor al vídeo destino.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
200
/2000 images
200000
/20000
/268000 times
128
/128 pixels
8
/63 hours
Benedict Cumberbatch
Arthur
Fuente de vídeo original: Sherlock | La caída de Reichenbach | Enfrentamiento en la azotea
Natalie Portman
Pilar
Fuente de vídeo original: La guerra de las galaxias: Episodio I - La amenaza fantasma | Padmé se encuentra con Anakin
Detalles técnicos
Defectos del vídeo
Rostro borroso: la máscara está borrosa. Hay una diferencia de nitidez o resolución entre la máscara y el resto del vídeo.
Signos de desajuste: las expresiones del rostro deepfake no coinciden con el rostro objetivo. Los rasgos faciales no se comportan de manera natural y son invisibles, borrosos o salen repetidos.
Contorno de perfil: el perfil de la cara no se ve bien. La máscara deepfake está rota, con menos detalle o mal-alineada.
Un vídeo contiene muchos más matices faciales que las imágenes que tomamos de Facebook. Las fotos que tiene nuestra compañera de trabajo en sus cuentas de redes sociales fueron escogidas por ella y, por tanto, falta el tipo de imágenes que necesitamos para crear un rostro hablando con expresiones faciales realistas. Sin una diversidad de material de base, es imposible crear algo convincente.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
165
/2000 images
215000
/268000 times
128
/128 pixels
44
/63 hours
Detalles técnicos
Defectos del vídeo
Rostro borroso: la máscara está borrosa. Hay una diferencia de nitidez o resolución entre la máscara y el resto del vídeo.
Efecto de parpadeo: hay un parpadeo entre el rostro original y el rostro deepfake. El algoritmo no puede reconocer la cara y deja de crear la máscara durante unos instantes.
Perspectiva errónea: el deepfake tiene una diferente perspectiva al resto del vídeo. El vídeo fuente y destino difieren en longitud focal.
El deepfake se exportó con una resolución de 64px. Una resolución más baja implica pasar menos tiempo entrenando al algoritmo porque el modelo solo tiene que aprender a crear una imagen de baja resolución. En las tomas detalle de caras, se nota la resolución baja.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
1400
/2000 images
100000
/268000 times
64
/128 pixels
8
/63 hours
Harrison Ford
Andrej
Fuente de vídeo original: Indiana Jones y el templo maldito | Lucha en el puente colgante
Bill Hader
Arnold Schwarzenegger
Fuente de vídeo original: Bill Hader Presents: Schwarzenegger Baby
Fuente de vídeo manipulado : YouTube | Ctrl Shift Face | Bill Hader impersonates Arnold Schwarzenegger [DeepFake]
Detalles técnicos
Defectos del vídeo
Oclusión facial: cuando objetos pasan por delante de la cara, se distorsiona la máscara o la máscara cubre el objeto.
La fusión de rostros, el tono de piel y la resolución son buenas. Como la toma es a lo lejos (un plano muy abierto), es difícil darse cuenta de los elementos borrosos. La post-producción se realizó con mucha destreza. Lo único que delata el deepfake es cuando Bill Hader mueve su dedo por delante de su cara y desaparece por debajo de la máscara. La diferencia de nitidez y el ángulo del dedo sugieren que intentaron esconder el efecto en la post-producción.
Detalles técnicos
El tiempo de entrenamiento se relaciona con el número de veces que el algoritmo procesa las imágenes. El proceso implica crear un rostro (o máscara digital), compararla con la imagen fuente y realizar ajustes para mejorar la semblanza entre la máscara y el rostro original. El modelo repite este ciclo para cada una de las imágenes fuente. El tiempo que toma depende de los recursos y capacidad del ordenador.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
Project reach
400
/400
/2000 images
20000
/268000 times
128
/128 pixels
4
/48
/63 hours
Constance Wu
Yueling
Fuente de vídeo original: YouTube | The Late Show with Stephen Colbert | Constance Wu Explains What "Couture" Means
Arthur
Andrej
Detalles técnicos
H128 es un modelo más liviano. Logra resultados de calidad más rápido. La máscara más precisa de SAEHD es más apta lidiar con la mano e integrarse con la iluminación. Parece que H128 está mejor entrenado para crear rostros: la máscara es más nítida, estable y se adapta mejor al movimiento y cambio de perspectivas y ángulos. Sin embargo, expertos dicen que con más tiempo de entrenamiento, SAEHD produce mejores resultados que H128.
Algorithm
Dataset size
Iteration amount
Output resolution
Training time
SAEHD
H128
Project reach
500
/500
/2000 images
150000
/150000
/268000 times
128
/128 pixels
24
/40
/63 hours
Detalles técnicos:
La recreación facial es mucho más difícil de detectar, pero necesita ordenadores más potentes. Muchos de los desafíos que mencionamos anteriormente no aplican a este tipo de técnica. El algoritmo funciona de manera parecida. Las partes recreadas son ligeramente borrosas y con un poco menos de detalle.
Presta atención también al audio y busca defectos o problemas de lip-sync. Poniendo en práctica lo que aprendiste en este sitio web, hazte preguntas sobre los vídeos: ¿crees que es probable que lo utilizen para hacer un deepfake? ¿Tienen elementos y características que lo permiten? Si tienes duda de si un vídeo es un deepfake, verifica su fuente.
Deepfake fuente de vídeo: YouTube | VFXChris Ume | Fake Freeman mouth manipulation.