Une équipe de chercheurs anglais vient de démontrer que les voix générées par intelligence artificielle ont franchi un seuil critique : elles sont devenues impossibles à distinguer des voix humaines authentiques. L’étude, menée par le Dr Nadine Lavan et ses collègues, révèle que la technologie a progressé au point de produire des clones vocaux d’un réalisme troublant. Plus inquiétant encore, les voix synthétiques sont souvent perçues comme plus dominantes, voire plus dignes de confiance, que leurs modèles humains. Une avancée technologique qui soulève autant d’opportunités que de préoccupations éthiques et sécuritaires.
Une indiscernabilité confirmée par l’expérience
L’équipe du Dr Nadine Lavan de l’Université Queen Mary de Londres a comparé des enregistrements vocaux humains authentiques avec deux catégories de voix synthétiques générées par des outils d’intelligence artificielle de pointe. La première catégorie comprenait des clones vocaux créés à partir d’enregistrements de personnes réelles, conçus pour les imiter fidèlement. La seconde provenait de modèles vocaux généraux, sans contrepartie humaine spécifique.
Les participants à l’expérience devaient évaluer le réalisme de chaque voix, ainsi que leur perception de traits comme la dominance ou la confiance qu’elles inspiraient. Les chercheurs ont également testé l’hypothèse d’un effet d’« hyperréalisme », un phénomène déjà observé avec les images de visages générées par IA, où les créations synthétiques sont jugées plus humaines que les vraies photographies. Si l’étude n’a pas confirmé la présence de cet effet pour les voix, elle a néanmoins établi que les clones vocaux atteignent un niveau de réalisme équivalent aux voix humaines, rendant la distinction pratiquement impossible pour l’auditeur moyen. Plus troublant, les deux types de voix artificielles ont été évalués comme plus dominantes que les voix humaines, et certaines ont même été perçues comme plus dignes de confiance.
Une technologie accessible et rapide à déployer
Le Dr Nadine Lavan souligne la facilité déconcertante avec laquelle son équipe a pu créer des clones vocaux réalistes. « Le processus ne nécessite qu’un minimum d’expertise, quelques minutes d’enregistrement vocal et presque pas d’argent », explique-t-elle. Les chercheurs ont utilisé des logiciels commercialement disponibles, avec l’accord des personnes dont les voix ont été clonées, démontrant ainsi l’accessibilité de la technologie.
La rapidité des progrès inquiète. « Les voix générées par l’IA nous entourent tous aujourd’hui. Nous avons tous parlé à Alexa ou à Siri, ou vu nos appels pris en charge par des systèmes automatisés de service à la clientèle », rappelle le Dr Nadine Lavan. Si ces assistants vocaux ne sonnaient pas encore tout à fait naturels, la chercheuse note que «ce n’était qu’une question de temps avant que la technologie de l’IA ne commence à produire des voix naturelles à consonance humaine. Notre étude montre que ce temps est venu et qu’il est urgent de comprendre comment les gens perçoivent ces voix réalistes ».
Entre menaces sécuritaires et promesses d’accessibilité
Les implications de cette avancée touchent des domaines sensibles : éthique, droits d’auteur, sécurité. Les risques liés à la désinformation, à la fraude et à l’usurpation d’identité se multiplient avec la démocratisation de la technologie. La capacité de créer des deepfakes vocaux convaincants en quelques minutes ouvre la porte à des manipulations potentiellement dévastatrices.
Pourtant, le Dr Lavan refuse le pessimisme absolu. « La possibilité de générer des voix réalistes à grande échelle ouvre des perspectives passionnantes. », affirme-t-elle, évoquant des applications dans l’amélioration de l’accessibilité, l’éducation et la communication. « Il pourrait y avoir des applications pour améliorer l’accessibilité, l’éducation et la communication, où des voix synthétiques de haute qualité sur mesure peuvent améliorer l’expérience de l’utilisateur. », précise la chercheuse.
La question n’est plus de savoir si la technologie continuera à progresser, mais comment la société choisira de l’encadrer et de l’utiliser. Entre vigilance accrue et innovation responsable, l’ère des voix synthétiques indiscernables appelle à une réflexion collective urgente sur les garde-fous nécessaires.
Source : QMUL










