Tenir une conversation dans une pièce bondée mène souvent au frustrant « problème du cocktail party », ou au défi de séparer les voix des interlocuteurs d’un brouhaha. C’est une situation mentalement éprouvante qui peut être exacerbée par une déficience auditive.
En tant que solution à cette énigme commune, des chercheurs de l’Université de Washington ont développé des écouteurs intelligents qui isolent de manière proactive tous les interlocuteurs de l’utilisateur dans un paysage sonore bruyant. Les écouteurs sont alimentés par un modèle d’IA qui détecte le rythme d’une conversation et un autre modèle qui réduit au silence toutes les voix qui ne suivent pas ce schéma, ainsi que les autres bruits de fond indésirables. Le prototype utilise du matériel standard et peut identifier les interlocuteurs en utilisant seulement deux à quatre secondes d’audio.
Les développeurs du système pensent que cette technologie pourrait un jour aider les utilisateurs de prothèses auditives, d’écouteurs et de lunettes intelligentes à filtrer leur environnement sonore sans avoir besoin de diriger manuellement l’« attention » de l’IA.
L’équipe a présenté la technologie le 7 novembre à Suzhou, en Chine, lors de la Conférence sur les Méthodes Empiriques en Traitement du Langage Naturel. Le code sous-jacent est open-source et disponible au téléchargement.
« Les approches existantes pour identifier la personne à qui l’utilisateur écoute impliquent principalement des électrodes implantées dans le cerveau pour suivre l’attention, explique l’auteur principal Shyam Gollakota, professeur à l’UW à la Paul G. Allen School of Computer Science & Engineering. Notre idée est que lorsque nous conversons avec un groupe spécifique de personnes, notre parole suit naturellement un rythme d’alternance. Et nous pouvons entraîner une IA à prédire et suivre ces rythmes en utilisant uniquement l’audio, sans avoir besoin d’implanter des électrodes. »
Le système prototype, surnommé « assistants auditifs proactifs », s’active lorsque la personne portant les écouteurs commence à parler. À partir de là, un premier modèle d’IA commence à suivre les participants à la conversation en effectuant une analyse « qui a parlé quand » et en recherchant un faible chevauchement dans les échanges. Le système transmet ensuite le résultat à un second modèle qui isole les participants et diffuse l’audio épuré pour l’utilisateur. Le système est suffisamment rapide pour éviter une latence audio confuse pour l’utilisateur, et peut actuellement gérer un à quatre interlocuteurs en plus de l’audio de l’utilisateur.
L’équipe a testé les écouteurs avec 11 participants, qui ont évalué des qualités comme la suppression du bruit et la compréhension avec et sans la filtration par IA. Dans l’ensemble, le groupe a évalué l’audio filtré plus de deux fois plus favorablement que la référence.
L’équipe de Gollakota expérimente des assistants auditifs alimentés par l’IA depuis quelques années. Ils ont développé un prototype d’écouteur intelligent qui peut extraire l’audio d’une personne dans une foule lorsque l’utilisateur la regarde, et un autre qui crée une « bulle sonore » en réduisant au silence tous les sons dans une distance définie de l’utilisateur.
« Tout ce que nous avons fait précédemment nécessite que l’utilisateur sélectionne manuellement un locuteur spécifique ou une distance d’écoute, ce qui n’est pas idéal pour l’expérience utilisateur, précise l’auteur principal Guilin Hu, doctorant à l’Allen School. Ce que nous avons démontré est une technologie proactive — quelque chose qui infère l’intention humaine de manière non invasive et automatique. »
Il reste beaucoup de travail pour affiner l’expérience. Plus une conversation devient dynamique, plus le système est susceptible de rencontrer des difficultés, car les participants se coupent la parole ou parlent en monologues plus longs. L’arrivée et le départ de participants d’une conversation présentent un autre obstacle, bien que Gollakota ait été surpris par les bonnes performances du prototype actuel dans ces scénarios plus complexes. Les auteurs notent également que les modèles ont été testés sur des dialogues en anglais, mandarin et japonais, et que les rythmes d’autres langues pourraient nécessiter un réglage plus fin.
Le prototype actuel utilise des écouteurs supra-auriculaires commerciaux, des microphones et des circuits. À terme, Gollakota s’attend à rendre le système suffisamment petit pour fonctionner sur une puce minuscule à l’intérieur d’un écouteur ou d’une prothèse auditive. Dans un travail parallèle présenté à MobiCom 2025, les auteurs ont démontré qu’il est possible d’exécuter des modèles d’IA sur de petits appareils de prothèses auditives.
Les co-auteurs incluent Malek Itani et Tuochao Chen, doctorants à l’UW à l’Allen School.
Article : Proactive Hearing Assistants that Isolate Egocentric Conversations – DOI : 10.18653/v1/2025.emnlp-main.1289











