Dans un futur proche pourra-t-on donner aux intelligences artificielles la voix de quelqu’un d’autre, de nos amis ou notre propre voix ? Après le texte, les images ou encore la vidéo, Open AI et ChatGPT peuvent désormais cloner des voix humaines. En effet, le 29 mars dernier, Open AI à dévoiler sa nouvelle fonctionnalité : Voice Engine. Cette Intelligence artificielle (IA) promet d’imiter n’importe quelle voix en 15 secondes. Face à des outils de plus en plus performants, une part de danger persiste. La firme hésite même à ne pas donner l’accès au grand public.
- Comment ça marche Voice Engine ?
Cet outil, est capable de cloner n’importe quelle voix humaine à partir d’un échantillon de voix de seulement 15 secondes. Voice Engine combine des techniques de diffusion et de transformation pour cloner les voix, surpassant les technologies similaires déjà existantes. Un échantillon audio et un texte sont fusionnés pour créer un discours identique reproduisant la voix du locuteur. Cette fusion des données permet de générer une voix similaire sans nécessiter la création d’un modèle personnalisé pour chaque utilisateur. Elle génère alors une copie conforme synthétique de la voix enregistrée.
Bien que cette technologie ne soit pas nouvelle, plusieurs startups proposent déjà des logiciels de clonage vocal depuis plusieurs années, tels que ElevenLabs ou Respeecher. De plus, des géants de la « tech » comme Amazon, Google et Microsoft travaillent également sur de telles technologies. Cependant, Voice Engine apparait comme leader par la qualité supérieure de reproduction vocale.
Ce développement s’est déroulé secrètement sur deux ans, utilisant le même modèle que ChatGPT pour ses fonctions vocales. Spotify l’a déjà employé pour le doublage de podcasts depuis 2023.
- Un outil éducatif avantageux
Voice Engine offre des applications bénéfiques dans des domaines tels que la santé, l’accessibilité et les médias. L’entreprise se dit « prudente » par rapport à l’utilisation de cet outil, et met en avant les divers avantages qu’elle confère :
- L’assistance dans la lecture, pour aider des personnes à se concentrer avec une voix familière.
- La traduction en temps réel, pour permettre d’apprendre ou de parler une autre langue avec sa propre voix.
- L’accessibilité, en ciblant les personnes qui ne peuvent pas ou ne peuvent plus parler.
- Créer des voix pour les personnes muettes ou handicapés.
Une approche technologique éducative serait alors envisagée.
- Les dangers liés à son utilisation
Cette nouvelle technologie représente surtout une menace pour l’industrie du doublage vocal, avec le risque que de nombreux professionnels soient remplacés par des systèmes d’IA plus rapides et moins coûteux. Les entreprises et les travailleurs concernés sont conscients de cette évolution et commencent à s’y préparer. En 2023, Replica Studios a conclu un accord avec SAG-AFTRA (Fédération américaine des artistes de television et de radio) pour reproduire les voix des membres de ce syndicat d’artistes des médias. Cet accord vise à garantir des conditions équitables, en obtenant le consentement des doubleurs pour l’utilisation de leurs voix synthétiques dans de nouveaux projets, notamment dans le secteur des jeux vidéo.
Au-delà des préoccupations concernant l’impact sur l’emploi, Voice Engine soulève principalement d’importants risques en matière de sécurité. C’est pourquoi OpenAI n’a pas encore annoncé de date de lancement, cherchant à comprendre comment prévenir les abus potentiels.Par le passé, des incidents ont été signalés où des plateformes similaires ont été utilisées à mauvais escient. Par exemple, des utilisateurs ont utilisé ElevenLabs (autre duplicateur de voix) pour diffuser des messages de haine en imitant la voix de célébrités.Des tests ont également montré la capacité à cloner des voix et à générer des discours de menaces violentes, racistes et transphobes. Un journaliste a réussi à exploiter des outils IA dans ce but, tout comme un autre reporter, qui a pu tromper le système d’authentification d’une banque avec un clone vocal convaincant.
Face à ces préoccupations, il est à craindre que des individus malintentionnés exploitent Voice Engine pour influencer des événements tels que des élections présidentielles. Par exemple, une campagne téléphonique a utilisé un « deepfake » (voir l’actu à ce sujet) de Joe Biden en janvier 2024 pour dissuader les citoyens du New Hampshire de voter.
Les dangers sont alors nombreux et posent d’ores et déjà problème, il est alors important de réguler son utilisation.
- Des directives déjà mises en place
En octobre dernier, la Maison Blanche avait publié des directives pour réguler le développement de l’intelligence artificielle, notamment en matière de transparence. Joe Biden avait exprimé des préoccupations concernant l’utilisation malveillante de l’intelligence artificielle (IA), comme l’usurpation d’identité pour tromper les gens. OpenAI a également proposé plusieurs mesures pour atténuer les risques associés à de telles technologies : l’instauration de lois pour protéger l’utilisation de la voix des individus par les IA, une sensibilisation accrue à la détection des contenus générés par ces technologies, notamment les « deepfakes », et le développement de systèmes permettant de tracer l’origine de ces créations.
Enfin, ces recommandations sont importantes à la vue de l’année électorale à venir aux Etats Unis. Les chercheurs en désinformation soulèvent des inquiétudes quant à une possible utilisation abusive des applications d’IA générative, notamment des outils de clonage vocal, alors que plusieurs élections majeures se déroulent cette année. OpenAI, basée à San Francisco, admet les sérieux risques associés à la capacité de créer des voix ressemblant à celles de personnes, surtout en cette période électorale. C’est pourquoi la mise en place rapide de ces directives est cruciale.
Pour l’instant, seule une dizaine de développeurs ont accès à cette technologie, son utilisation est limitée pour éviter les fraudes et cela n’est pas encore prêt de changer. OpenAI n’a pas encore annoncé de date de sortie pour l’outil, se concentrant d’abord sur la sécurité.
A suivre …