Del 'robo' a Scarlett Johansson a las estafas telefónicas, los riesgos de la clonación de voz de ChatGPT

La denuncia de la actriz contra OpenAI por el "inquietante parecido" entre la suya y su nuevo modo de voz pone encima de la mesa los desafíos éticos que abre la inteligencia artificial
Cualquier persona puede ver su voz clonada con una muestra de 15 segundos. "Estos sistemas deben incluir una advertencia para saber que, aunque suene humana, no lo es", admite la experta Lucia Ortiz de Zárate
Exclusivo para socias y socios

La actriz Scarlett Johansson a su llegada a la cena de la Asociación de Corresponsales de la Casa Blanca en el Washington Hilton en Washington a finales de abril. EP

Como si de una nueva versión de La Sirenita se tratase, con Scarlett Johansson en el papel de Ariel y con Open AI, la tecnológica fundada por Sam Altman, como la malvada Úrsula que le arrebata la voz, la última polémica que ha rodeado a la inteligencia artificial cuenta con todos los ingredientes para convertirse en un complejo culebrón que puede acabar en los juzgados y marcar el futuro tecnológico de la clonación de la voz humana. Todo comenzó con la presentación hace quince días del nuevo modelo de inteligencia artificial de la matriz de ChatGPT, GPT-4o.

De entre todas las novedades que incorporó, la que nos interesa para esta historia es el desarrollo de un nuevo modo de voz, es decir, una especie de asistente al estilo Siri o Alexa pero con el podremos mantener una conversación en tiempo real de forma totalmente natural ya que responde al instante, cuenta con diferentes tonos de voz y también puede reír, cantar o expresar diferentes emociones. Esta implementación abre además también la puerta a la traducción instantánea de una conversación con otra persona que hable en otro idioma.

¿Y cómo funciona esta inteligencia artificial que clona voces? Este sistema permite copiar la voz humana de forma fidedigna con una muestra de tan solo 15 segundos. "Necesita muchísimas cantidades de datos, en este caso muchísimas cantidades de voces, para encontrar patrones de repetición. Los algoritmos se ponen a funcionar y van buscando distintas características como la tonalidad, cómo de aguda es, cómo de rápido habla, la cadencia, el tipo de palabras que usa… Va identificando aspectos que son característicos de la voz para poder aprender cuáles son los importantes y así poder luego replicarlos", explica Lucía Ortiz de Zárate, investigadora en Ética y Gobernanza de la Inteligencia Artificial en la Universidad Autónoma de Madrid, que señala que "a medida que se van incorporando más voces, se va enriqueciendo y probablemente vaya siendo más preciso a la hora de replicar una voz".

Para esta experta, la clave es saber qué se quiere crear al usar esta herramienta. Si lo que busca es un sistema que hable, como un asistente, es "relativamente fácil" crear una nueva voz si "se tienen muchas y se ha entrenado con información de personas distintas" ya que "simplemente se combina una tonalidad con un acento aleatoriamente y se elige si es de hombre o mujer, y si es más aguda o más grave, y si habla más rápido o más despacio".

El asunto se complica si lo que se busca es imitar la voz de una persona en concreto. "Con 15 segundos es posible conseguir una imitación bastante buena porque hay características de la voz que se reconocen y que se repiten", explica Ortiz de Zárate que señala que la herramienta rellena "los huecos" que le quedan con información de otras voces con las que haya sido entrenado. En cambio, si se tienen horas y horas de audio, como le puede pasar a cualquier personaje público, ya sea una actriz como Scarlett Johansson o un político como Pedro Sánchez, "sí que se puede replicar perfectamente con mucha exactitud" y que "probablemente sean casi indistinguibles de la realidad".

El inquietante parecido de Sky con Scarlett Johansson

Así, en la demostración durante la presentación de GPT-4o, la voz que eligieron sonaba sospechosamente parecida a la de la inteligencia artificial de la película Her, Samantha, a la que daba vida en la versión original la propia Scarlett Johansson. Según explicó Open AI tras las primeras críticas, esta voz, junto con otras cuatro, lleva desde septiembre de 2023 funcionando en ChatGPT, se llama Sky y "no es una imitación, pertenece a una actriz profesional diferente que utiliza su propia voz natural". Sin embargo, estas explicaciones no convencieron a la intérprete ya que, según explicó en un comunicado emitido este lunes, se quedó "conmocionada" ya que la voz suena "inquietantemente similar a la mía": "Ni mis amigos más cercanos ni los medios de comunicación podían notar la diferencia".

Desde el colectivo de los intérpretes coinciden en esta lectura de la situación, poniendo de relieve que la voz es "un derecho fundamental" ,ya que es un elemento identificar de las personas. "Nos preocupa en general su uso, más allá de actores y actrices, porque parece que hay poco límite para evitarlo", apunta Ignacio Martín Pina, responsable institucional de la Unión de Actores y Actrices. En la misma línea se posiciona Raúl Lara, presidente del Sindicato de Artistas de doblaje de Madrid (Adoma): "Esto demuestra lo peligrosas que son potencialmente estas herramientas y también lo peligrosas que son si se usan mal y lo poco protegidos que estamos, no sólo como profesionales, si no todos los ciudadanos".

Por ello, ante este parecido "inquietante", la actriz contrató a un abogado y le ha pedido a Open AI que deje de utilizar esta voz, algo que la compañía ya ha hecho al retirar de inmediato de su catálogo a Sky. Aunque mucha gente pueda pensar que es una coincidencia o un guiño a la voz de Her, lo cierto es que la propia Johansson reveló que el propio Sam Altman se ha puesto en dos ocasiones en contacto con su entorno. Primero, en septiembre de 2023, justo en la fecha en la que la compañía lanzó sus voces, contactó para preguntarle si podría proporcionar su voz para el futuro asistente de la tecnología. Y, posteriormente, días antes de esta presentación, le pidió que considerara la posibilidad de licenciar su voz para un asistente virtual. En ambos casos, la respuesta de la también cantante y productora fue negativa.

La ausencia de consentimiento

El problema de fondo de toda esta cuestión son dos. Por un lado, el consentimiento, ya que nadie quiere que se use ninguna característica física ni su trabajo sin su permiso. "Para mí, el único uso ético de la clonación de voces es el que cuente con el consentimiento de la persona", sostiene Ortiz de Zárate.

Ante este nuevo problema, y tras la huelga del año pasado en Hollywood, la respuesta de los actores ha sido mixta. Algunos, como Johansson, temen que la industria audiovisual, y sobre todo el sector de los videojuegos, reduzcan costes usando la inteligencia artificial, reproduzcan sus voces sin permiso ni pago o, incluso, termine reemplazando a todos los intérpretes. "Cualquier profesión o cuestión que tenga que ver con la voz, como ser actor de doblaje, artista, cantante, cuentacuentos o cualquier persona que necesite que la voz sea un atributo importante puede ver su empleo o sus actividades en peligro", explica Ortiz de Zárate.

En cambio, otros actores, como Idris Elba, Jodie Comer, David Harbour o Keri Russell, están dispuestos a subirse al carro de la inteligencia artificial y ceden su imagen y sus voces a cambio de una compensación justa y si no se abusa de ellas. "La tecnología en sí no es mala, lo malo son los usos que hacen con ellos. Como herramienta es genial y pueden hacer cosas a favor de la obra y del artista, pero no puede sustituir al artista", apunta Raúl Lara de Adoma.

Desde la Unión de Actores y Actrices recuerdan que el pasado noviembre lanzaron una serie de recomendaciones ante el reto de la inteligencia artificial en que aconsejaban a los intérpretes no ceder más de lo obligado y revisar las cesiones de derechos de imagen y propiedad intelectual, además de defender su voz y que estas nuevas herramientas no elimina derechos. "El abaratamiento de costes hace pensar que pueda haber una sustitución o un uso fraudulento. La industria tiene que autorregularse y que todas las partes sean necesarias", indica Ignacio Martín Pina.

De Emma Watson leyendo a Hitler a las estafas telefónicas

Lo que queda claro es que la denuncia de Johansson pone encima de la mesa todos los desafíos legales y éticos que abren estas herramientas. "Si ahora cogen mi voz y la utilizan para decir lo que sea, eso es ilegal. No puede venir ChatGPT o la inteligencia artificial que sea y utilizar mi voz para decir las cosas que sean", defiende Ortiz de Zárate.

Además de los riesgos para los profesionales de la actuación, estos sistemas también presentan problemas para prácticamente cualquier persona. "Hay riesgos como la suplantación de identidad o que se usen para cometer fraudes o para aumentar la desinformación", señala Ortiz de Zárate. Un ejemplo: suena el teléfono y escuchas a un familiar pidiéndote dinero porque tiene un problema, cuando en realidad es una estafa porque han clonado su voz.

Y, aparte de Scarlett Johansson, ya hay otros muchos casos pululando por Internet y por los teléfonos. Por ejemplo, grabaciones falsas de la actriz Emma Watson leyendo Mein Kampf de Adolf Hitler o llamadas automáticas de una voz que fingía ser Joe Biden durante las primarias en New Hampshire que invitaban a los ciudadanos a no votar. "El problema es que cuanto más realista son las voces, al igual que los vídeos, es más difícil distinguir la realidad de la ficción", reconoce Ortiz de Zárate.

De la protección de datos a la nueva ley europea de inteligencia artificial

¿Tiene recorrido la denuncia de Johansson? Según sostiene Eduard Blasi, divulgador del canal Tech and Law en Instagram y abogado data guardians, lo primero que hay que hacer para responder a esta pregunta es diferenciar entre "clonar y hacer una réplica".

Si es una clonación, "afecta a la normativa de protección de datos porque la voz es un dato personal y necesitaría permiso, en tanto se usa en interés comercial de la empresa". Sin olvidarse, además, "de la propiedad intelectual y el derecho al honor y a la imagen". En el caso de que sea una réplica, como parece que sucede en este caso, podría violar, según explica Blasi, "la propiedad intelectual, si el famoso tiene establecido criterios en el uso de su imagen, y también responsabilidades derivadas de prácticas comerciales".

Eso sí, todo esto "según la normativa española", aunque, para este abogado, los argumentos de Johanson contra Open AI tienen "bastante peso". Para Blasi, cualquier persona a la que le clonen la voz podría reclamar y la denuncia tendría recorrido. La cosa cambia si se trata de una réplica ya que "en el caso de personas anónimas, el impacto es relativo, pero en famosos desde luego".

La cara más inquietante de la lluvia de millones de Microsoft para inteligencia artificial en España

"En una época en que todos lidiamos con deepfakes y la protección de nuestra imagen, nuestro trabajo y nuestras identidades, creo que estas cuestiones merecen una claridad total", explicó Johansson que, no hay que olvidar, ya fue protagonista involuntaria de creaciones de pornografía sintética hace unos años y en la actualidad a partir de su imagen. La actriz concluye su comunicación exigiendo la "aprobación de una legislación apropiada que ayude a asegurar que los derechos individuales sean protegidos".

¿Están desprotegidos nuestros derechos ante la irrupción de estos sistemas? "El problema no es tanto regular, sino que hay que regular mejor porque el gran problema es que la tecnología va muy rápido", apunta Ignacio Martín Pina, de la Unión de Actores y Actrices. "La normativa actual es robusta. En la UE tenemos suficientes herramientas que puedan protegernos", argumenta Blasi. Por un lado, la ley de protección de datos está "bastante adelantada a su tiempo". Y, por otro, el nuevo reglamento de inteligencia artificial de la UE ofrece "muchas garantías".

Esta nueva norma, pionera en el mundo, está en su última fase de cocción. La nueva legislación completó este mismo martes el último escalón en los pasillos de Bruselas tras aprobarse por unanimidad en el Consejo. Con esta luz verde, se espera que comience a aplicarse en las próximas semanas de forma gradual hasta su plena entrada en vigor en 2026. "Creo que estos sistemas caerán bajo la denominación de riesgo medio y estarán obligados, de alguna forma, a incluir, igual que los deepfakes, una marca de agua para que los usuarios sepan que esa imagen se ha generado con inteligencia artificial", sostiene Ortiz de Zárate, que indica que tendrán que tener "alguna forma de que los usuarios sepan que esa voz, aunque suene humana, no lo es".

Más sobre este tema