Deepfakes
Los deepfakes amplían la idea de la composición de vídeos con aprendizaje profundo para que parezca que alguien dice o hace algo que en realidad no dijo o hizo.

por Martin Heller

Los deepfakes son medios, a menudo de vídeo, pero a veces de audio, que se crearon, alteraron o sintetizaron con la ayuda del aprendizaje profundo para intentar engañar a algunos espectadores o oyentes para que crean un evento o un mensaje falso.

El ejemplo original de un deepfake (por el usuario de reddit / u / deepfake) cambió el rostro de una actriz al cuerpo de un actor porno en un video, lo que, por supuesto, no fue completamente ético, aunque inicialmente no fue ilegal. Otros deepfakes han cambiado lo que decían los famosos o el idioma que hablaban.

Deepfakes
Deepfakes

Los deepfakes amplían la idea de la composición de videos (o películas), que se ha hecho durante décadas. En la composición de video se emplean importantes habilidades de video, tiempo y equipo; Los deepfakes de video requieren mucha menos habilidad, tiempo (suponiendo que tenga GPU) y equipo, aunque a menudo no son convincentes para los observadores cuidadosos.

Cómo crear deepfakes

Originalmente, los deepfakes se basaban en codificadores automáticos , un tipo de red neuronal no supervisada, y muchos todavía lo hacen. Algunas personas han refinado esa técnica utilizando GAN (redes generativas de confrontación). También se han utilizado otros métodos de aprendizaje automático para deepfakes, a veces en combinación con métodos que no son de aprendizaje automático, con resultados variables.https://imasdk.googleapis.com/js/core/bridge3.409.0_es.html#goog_296726701Volumen 0% 

Autoencoders

Esencialmente, los codificadores automáticos para caras deepfake en imágenes ejecutan un proceso de dos pasos. El primer paso es usar una red neuronal para extraer una cara de una imagen de origen y codificarla en un conjunto de características y posiblemente una máscara, generalmente usando varias capas de convolución 2D, un par de capas densas y una capa softmax. El segundo paso es usar otra red neuronal para decodificar las características, escalar la cara generada, rotar y escalar la cara según sea necesario y aplicar la cara mejorada a otra imagen.

El entrenamiento de un codificador automático para la generación de caras falsas requiere muchas imágenes de las caras de origen y destino desde múltiples puntos de vista y en diversas condiciones de iluminación. Sin una GPU, el entrenamiento puede llevar semanas. Con las GPU, va mucho más rápido.

GAN

Las redes generativas adversarias pueden refinar los resultados de los codificadores automáticos, por ejemplo, al enfrentar dos redes neuronales entre sí. La red generativa intenta crear ejemplos que tengan las mismas estadísticas que la original, mientras que la red discriminativa intenta detectar desviaciones de la distribución de datos original.

WHITEPAPERS RECOMENDADOS

La formación de GAN es una técnica iterativa que requiere mucho tiempo y que aumenta enormemente el coste en tiempo de cálculo sobre los codificadores automáticos. Actualmente, las GAN son más apropiadas para generar cuadros de imágenes individuales realistas de personas imaginarias (por ejemplo, StyleGAN) que para crear videos deepfake. Eso podría cambiar a medida que el hardware de aprendizaje profundo se vuelva más rápido.

Cómo detectar deepfakes

A principios de 2020, un consorcio de AWS, Facebook, Microsoft, el Comité Directivo de Integridad de Medios de la Asociación de Inteligencia Artificial y académicos crearon el Desafío de Detección de Deepfake (DFDC), que se ejecutó en Kaggle durante cuatro meses.

El concurso incluyó dos soluciones prototipo bien documentadas: una introducción y un kit de inicio . La solución ganadora, de Selim Seferbekov, también tiene una redacción bastante buena .

Los detalles de las soluciones harán que sus ojos se crucen si no está interesado en las redes neuronales profundas y el procesamiento de imágenes. Esencialmente, la solución ganadora hizo detección de rostros fotograma a fotograma y extrajo máscaras de índice SSIM (Structural Similarity). El software extrajo las caras detectadas más un margen del 30 por ciento y utilizó EfficientNet B7 previamente entrenado en ImageNet para la codificación (clasificación). La solución ahora es de código abierto .

Lamentablemente, incluso la solución ganadora solo pudo detectar aproximadamente dos tercios de los deepfakes en la base de datos de prueba de DFDC.

Aplicaciones de detección y creación de deepfake

Una de las mejores aplicaciones de creación de deepfake de vídeo de código abierto es actualmente Faceswap , que se basa en el algoritmo deepfake original. Le tomó al escritor de Ars Technica Tim Lee dos semanas, usando Faceswap, crear un deepfake que cambió la cara del teniente comandante Data (Brent Spiner) de  Star Trek: The Next Generation en un video de Mark Zuckerberg testificando ante el Congreso . Como es típico de los deepfakes, el resultado no pasa la prueba de rastreo para nadie con una sofisticación gráfica significativa. Por lo tanto, el estado del arte de los deepfakes todavía no es muy bueno, con raras excepciones que dependen más de la habilidad del “artista” que de la tecnología.

Eso es algo reconfortante, dado que la solución ganadora de detección de DFDC tampoco es muy buena. Mientras tanto, Microsoft ha anunciado , pero no ha lanzado al momento de escribir este artículo, Microsoft Video Authenticator. Microsoft dice que Video Authenticator puede analizar una foto fija o un video para proporcionar un porcentaje de probabilidad, o puntuación de confianza, de que los medios se manipulen artificialmente.

Video Authenticator se probó con el conjunto de datos DFDC; Microsoft aún no ha informado cuánto mejor es que la solución Kaggle ganadora de Seferbekov. Sería típico que un patrocinador de un concurso de IA se basara y mejorara las soluciones ganadoras del concurso.

Facebook también promete un detector deepfake, pero planea mantener cerrado el código fuente. Un problema con los detectores de deepfake de código abierto como el de Seferbekov es que los desarrolladores de la generación de deepfake pueden usar el detector como discriminador en un GAN para garantizar que el falso pasará ese detector, lo que eventualmente alimentará una carrera armamentista de IA entre generadores de deepfake y detectores de deepfake.

En el frente del audio, Descript Overdub y el VoCo demostrado pero aún no publicado de Adobe pueden hacer que la conversión de texto a voz sea casi realista. Entrena Overdub durante unos 10 minutos para crear una versión sintética de su propia voz; una vez entrenado, puede editar sus voces en off como texto.

Una tecnología relacionada es Google WaveNet . Las voces sintetizadas por WaveNet son más realistas que las voces estándar de texto a voz, aunque no al nivel de las voces naturales, según las propias pruebas de Google. Ha escuchado voces de WaveNet si ha utilizado la salida de voz del Asistente de Google, la Búsqueda de Google o el Traductor de Google recientemente.

Deepfakes y pornografía no consensuada

Como mencioné anteriormente, el deepfake original cambió el rostro de una actriz por el cuerpo de un actor porno en un video. Desde entonces, Reddit ha prohibido el / r / deepfake sub-Reddit que albergaba ese y otros deepfakes pornográficos, ya que la mayor parte del contenido era pornografía no consentida, que ahora es ilegal, al menos en algunas jurisdicciones.

Otro sub-Reddit para deepfakes no pornográficos todavía existe en / r / SFWdeepfakes . Si bien los habitantes de ese sub-Reddit afirman que están haciendo un buen trabajo, tendrás que juzgar por ti mismo si, digamos, ver la cara de Joe Biden falsamente falsificada en el cuerpo de Rod Serling tiene algún valor, y si alguno de los deepfakes pasa. la prueba de olfateo para la credibilidad. En mi opinión, algunos se acercan a venderse como reales; la mayoría puede describirse caritativamente como tosca.

La prohibición de / r / deepfake no elimina, por supuesto, la pornografía no consentida, que puede tener múltiples motivaciones, incluida la pornografía de venganza, que en sí misma es un delito en los EE. UU. Otros sitios que han prohibido los deepfakes no consensuados incluyen Gfycat, Twitter, Discord, Google y Pornhub, y finalmente (después de mucho tiempo) Facebook e Instagram.

En California, las personas objetivo de contenido deepfake sexualmente explícito realizado sin su consentimiento tienen una causa de acción contra el creador del contenido. También en California, está prohibida la distribución de medios visuales o de audio deepfake maliciosos dirigidos a un candidato que se postula para un cargo público dentro de los 60 días posteriores a su elección. China exige que los deepfakes estén claramente etiquetados como tales.

Deepfakes en política

Muchas otras jurisdicciones carecen de leyes contra las falsificaciones políticas. Eso puede ser preocupante, especialmente cuando los deepfakes de figuras políticas de alta calidad logran una amplia distribución. ¿Sería peor un deepfake de Nancy Pelosi que el video convencionalmente ralentizado de Pelosi manipulado para que suene como si estuviera arrastrando las palabras ? Podría serlo, si se produce bien. Por ejemplo, vea este video de CNN , que se concentra en deepfakes relevantes para la campaña presidencial de 2020.

Deepfakes como excusas

“Es un deepfake” también es una posible excusa para los políticos cuyos videos reales y vergonzosos se han filtrado. Eso sucedió recientemente (o supuestamente sucedió) en Malasia cuando el Ministro de Economía desestimó una cinta de sexo gay como una profunda falsificación, a pesar de que el otro hombre que se muestra en la cinta juró que era real.

Por otro lado, la distribución de un probable deepfake amateur del enfermo presidente Ali Bongo de Gabón fue un factor que contribuyó a un posterior golpe militar contra Bongo. El video deepfake alertó al ejército de que algo andaba mal, incluso más que la prolongada ausencia de Bongo de los medios.

Más ejemplos de deepfake

Un video deepfake reciente de All Star , el clásico de Smash Mouth de 1999, es un ejemplo de cómo manipular videos (en este caso, una mezcla de películas populares) con sincronización de labios falsa. El creador, el usuario de YouTube ontyj, señala que “me dejé llevar probando wav2lip y ahora existe …” Es divertido, aunque no convincente. Sin embargo, demuestra cuánto se ha mejorado el movimiento de los labios fingiendo. Hace unos años, el movimiento de labios antinatural solía ser un indicio de un video falso.

Podría ser peor. Eche un vistazo a este video falso del presidente Obama como el objetivo y Jordan Peele como el conductor . Ahora imagine que no incluye ningún contexto que lo revele como falso, e incluye un llamado a la acción incendiario.

¿Estás aterrorizado todavía?

Obtenga más información sobre el aprendizaje automático y el aprendizaje profundo:

Martin Heller es editor colaborador y revisor de InfoWorld. Anteriormente, consultor de programación web y Windows, desarrolló bases de datos, software y sitios web de 1986 a 2010. Más recientemente, se ha desempeñado como vicepresidente de tecnología y educación en Alpha Software y presidente y director ejecutivo de Tubifi.

Fuente: https://www.infoworld.com/article/3574949/what-are-deepfakes-ai-that-deceives.html

Deja un comentario