Suplantación de identidad y desinformación, la otra cara de los vídeos doblados de Rajoy, Belén Esteban o Paquita Salas

Fotogramas de algunos de los vídeos doblados con inteligencia artificial que se han viralizado durante los últimos días en redes sociales.

Asomarse esta semana a X, antes Twitter, ha consistido en encontrarse tuit sí y tuit también con algunos vídeos de la historia de la televisión, escenas de series míticas o declaraciones de políticos, cantantes o deportistas doblados al inglés, el japonés, el italiano… y casi a cualquier idioma que se le venga a la mente. Así, entrar a la realidad alternativa que son las redes sociales ha visto durante unos días como el odio y las fake news quedaban relegadas por Mariano Rajoy o a Alberto Núñez Feijóo hablando un casi perfecto inglés, o a Belén Esteban, Chelo García Cortés u otros personajes del desaparecido Sálvame recreando para el mundo anglosajón alguno de los momentos que dejó el programa de Telecinco. 

La lista de personajes afectados por esta locura tuitera es extensa: momentazos convertidos en meme de Aquí no hay quién viva, Paquita Salas o Torrente, El Fary, Messi o Luis Rubiales y sus explicaciones bochornosas del "pico" a Jenni Hermoso. La explosión de estos vídeos vivida esta semana responde al lanzamiento el pasado viernes de una nueva aplicación de vídeos de una startup llamada HeyGen que permite con la inteligencia artificial traducir a otro idioma el contenido y el tono de voz de cualquier persona.

Aunque, en España, uno de los culpables ha sido la cuenta de @norcoreano: "Descubrí una inteligencia artificial rara y se me ocurrió probarla con un vídeo chorra y ahora mismo hay una empresa de Denver reunida de emergencia para explicar por qué le han petado sus servidores en España". En concreto, la publicación en cuestión, un vídeo de Belén Esteban en La Resistencia acumula desde el miércoles 13 más de 30 millones de reproducciones y más de 5.000 retuits, muchos de los cuales incluyen grabaciones nuevas de otros personajes hablando un inglés más que decente. Según publica El País, los tiempos de espera en la app pasaron de unos minutos a un día, y el miércoles había más de 120.000 usuarios esperando a que los servidores de esta herramienta hicieran su trabajo.

Pero, más allá de la gracia de ver finalmente a Feijóo o a Abascal hablando por fin un inglés decente, lo más impresionante y preocupante es la calidad de los resultados. ¿Cómo logra HeyGen este doblaje tan decente imitando incluso la voz y la entonación? "Se usan voces sintéticas basadas en redes neuronales, un tipo de algoritmos muy concretos que funcionan recreando cómo funcionan nuestras neuronas. Lo que hacen es que estos algoritmos se entrenan con voces y van aprendiendo perfectamente características como la cadencia o las pausas. Cuando aprenden estos patrones, son capaces de replicarlos en cualquier idioma", explica Lucía Ortiz de Zárate, investigadora en Ética y Gobernanza de la Inteligencia Artificial en la Universidad Autónoma de Madrid. 

El resultado es tan sorprendente que en algunos vídeos hasta los labios aparecen sincronizados. "Igual que se utiliza la inteligencia artificial generativa en los deepfakes se puede hacer con el tema de la voz", reconoce esta experta que apunta que podría ser una combinación de dos herramientas. Por un lado, la voz sintética para "decir lo que quieras" y otra para que "reconozca que ciertas características de la voz implica un movimiento u otro de labios". "El efecto es muy realista", confiesa Ortiz de Zárate. 

¿Qué va a pasar con el sector del doblaje?

Tan realista que muchos en X ya apuntaban uno de los riesgos del uso de esta tecnología: ¿qué va a pasar con el sector del doblaje? "Hay que ver la calidad de estos sistemas de inteligencia artificial, porque hay mucho hype pero un actor de doblaje es un actor de doblaje y no se sabe si van a alcanzar su nivel. A lo mejor sustituye a ciertos actores para cosas básicas, pero no a los de grandes producciones. Esto lo que va a poner de relieve es el valor del trabajo humano", matiza Ortiz de Zárate. 

Sin embargo, este peligro no es nuevo para el sector del doblaje. El pasado abril, un manifiesto, firmado por doce asociaciones sindicales nacionales, ya alertó de los riesgos del boom con estas tecnologías "capaces de clonar voces y de desarrollar voces de inteligencia artificial que realicen este tipo de trabajo de manera autónoma": "La locución, el doblaje y la actuación de voz constituyen un bien cultural con gran arraigo en el sector de la comunicación, el entretenimiento y la enseñanza en todas las lenguas del Estado. Por ello, las administraciones públicas han de intervenir activamente y con efectividad para que un bagaje cultural, tan presente en la vida de los ciudadanos, siga siendo alimentado por seres humanos". 

No obstante, desde el sector del doblaje son contundentes con la proliferación de estos vídeos en redes sociales. "Entendemos el revuelo que causa porque es algo curioso, pero que no debería pasar de ahí. Estos vídeos no son doblaje, son una traducción simultánea hecha por una tecnología nueva", asegura Raúl Lara, presidente del Sindicato de Artistas de doblaje de Madrid (Adoma), que pone como ejemplo una de las escenas que se ha viralizado estos días: Loles León como Paloma en Aquí no hay quién viva. "Estos vídeos están muy conseguidos, pero no tienen gracia. Copia el tono de Loles León, lo dice en un inglés perfecto, pero lo que dice no tiene gracia para un estadounidense porque es una traducción literal", explica. 

Opinión similar tiene Jaime Roca Carrera, presidente del Sindicato de Actores de Voz y Voice Talents de Madrid (Avta). "Son herramientas que se están desarrollando y cuya calidad irá mejorando, pero el espectador no está viendo al actor hablando en un idioma extranjero, está viendo a una máquina", sostiene.

La capacidad de suplantación de la inteligencia artificial

Roca Carrera señala, además, otro problema. "Lo que más nos preocupa, más que las herramientas de doblaje automático, es la capacidad de suplantación", reconoce el presidente de Avta. "Aquí no hay ningún dilema sobre la autoría. Cada uno tiene derechos sobre su propia voz o imagen. Estamos hablando de que están suplantando a la gente", defiende. 

Asier Sola, locutor y actor de doblaje, también explica que el problema no "es la herramienta en sí" ya que "puede llegar a tener aplicaciones muy útiles, especialmente para llegar a donde la industria tradicional no llega por no ser rentable como audiodescripciones para ciegos de productos más de nicho o audioguías". Sin embargo, encierra el problema de cómo se entrenan estas máquinas: "Esta inteligencia artificial no traduce y dobla de la nada, aprende gracias a los textos y las voces de profesionales que en la inmensa mayoría no han dado su consentimiento, y que nunca verán un céntimo de ello". 

¿Un complemento o un sustituto?

¿Y los puestos de trabajo los ponen en riesgo? "Es evidente", sostiene Roca Carrera. "No debería porque al final el doblaje es un proceso artístico que implica a mucho personal", explica Lara que apunta que, por ejemplo, "el actor crea de nuevo el personaje" y "nada de eso existe en un automatismo que ha aprendido con datos que ha robado" porque, recuerda, han sido entrenadas "sin pagar derechos de autor". 

"En un mundo con cierta ética empresarial no tendría miedo. Las empresas de inteligencia artificial dicen que no va a sustituir a locutores y actores, sino a complementarlos, pero yo soy más que escéptico. El doblaje es un sector muy precarizado, se busca que el trabajo salga rápido, cantidad antes que calidad para que salga lo más rentable posible", reconoce Sola. Este locutor y actor de doblaje insiste que las empresas ya han demostrado que "la calidad de su producto no les importa demasiado" así que, si la esta nueva tecnología "mejora y consigue ofrecer resultados pasables, aunque sean de mala calidad": "¿Qué les impide usarlo para obtener todavía más beneficios?". 

Ortiz de Zárate comprende los temores del sector. "Si se entendiese como un complemento, podría ser fenomenal y podrían surgir oportunidades. Ya ha pasado en el pasado". No obstante, y aunque el marco podría ser amable para lograr un mejor producto o un producto más creativo, lo cierto es que siempre se plantea la dicotomía del momento en que la máquina pueda hacer el trabajo lo suficientemente bien como para sustituir al humano. 

El problema de la manipulación

Pero la suplantación de identidades y la pérdida de puestos de trabajo no son los únicos riesgos de la proliferación de estas herramientas de voz con inteligencia artificial. "Si ya se le había dado credibilidad a las fotos de Trump detenido o al papa con el abrigo, imagínate si se les escucha hablar", señala Ortiz de Zárate. Y es que la mejora de estos sistemas de voz implica directamente mejorar los deepfakes. "El daño más peligroso es que se utilicen para manipular. Se pueden llegar a escenarios en que se reproduzca a una persona físicamente en todos los aspectos. A nivel de desinformación es una amenaza tremenda", argumenta esta experta que recuerda que se abren además muchas "cuestiones que tienen que ver con violación de la privacidad y la intimidad" y la peligrosidad de una mejorar en la "generación de pornografía de venganza". 

Más allá de estos riesgos, que son muchos, la mejora de estas herramientas para doblar o copiar voces abre también un debate ético y moral. ¿Se puede usar como está usando la inteligencia artificial la imagen y la voz de una persona para cualquier propósito sin su consentimiento? "No se debería permitir. Es una violación grave de la intimidad, e incluso de la dignidad, y creo que es de las primeras cosas que serán reguladas", explica Sola que recuerda que "la voz es como la cara, algunas podrán parecerse pero no hay dos iguales". 

La necesidad de una regulación

Hacer que Freddie Mercury cante ‘Thriller’ usando la inteligencia artificial es legal, pero ¿quién factura?

Hacer que Freddie Mercury cante ‘Thriller’ usando la inteligencia artificial es legal, pero ¿quién factura?

Y es que, como dice Sola, la inteligencia artificial avanza a pasos agigantados sin, por el momento, una legislación detrás. ¿Debe regularse? "Por supuesto, el avance tecnológico no se debe ni se puede parar", reconoce Lara que apunta que no hay dudas de que se va a regular: "Desde Adoma nos hemos puesto en contacto con otros sindicatos y se ha creado un grupo a nivel europeo, que ya es mundial e incluye a otros países. El objetivo es que las necesidades del sector de la cultura estén recogidas en la ley de la UE". La Eurocámara adoptó el pasado junio su posición negociadora con el Consejo Europeo para una ley pionera que se encuentra en la recta final para ser aprobada a finales de este año y entrar en vigor probablemente en 2025.

Desde Avta, proponen identificar estas creaciones. "El banco de datos de los que la inteligencia artificial coge sus ejemplos y sucedáneos debería estar identificado y debería hacerse con el permiso de sus creadores. Y también la salida, de que esa creación es de una máquina", explica Roca Carrera. Algo que ya está encima de la mesa de Bruselas. "Me imagino que la UE lo legislará como las inteligencias artificiales generativas, obligando a poner como marcas de agua para señalar que se ha generado con estas tecnologías", defiende Ortiz de Zárate. 

Para Sola, el punto clave será el copyright: "¿Quién es el propietario de un guion o una voz hecha por inteligencia artificial? ¿Quién la ha creado? ¿El propietario de la empresa? Pero él no ha creado nada, ha sido obra de una máquina que a su vez se ha nutrido del trabajo de miles de personas. Es complicado, porque tiene que ver con la propia definición del arte". Sin olvidarse además de la protección de intérpretes y traductores que no quieren ceder los derechos de su trabajo "para que una máquina les cave su propia tumba". Algo que ya han puesto sobre la mesa en Hollywood durante la huelga de los sindicatos de guionistas y actores.

Más sobre este tema
stats