Les grands modèles de langage (LLM) comme ChatGPT et Gemini ont été conçus à l’origine pour fonctionner uniquement avec du texte. Aujourd’hui, ils ont évolué en systèmes capables de traiter simultanément de nombreux types d’informations (systèmes multimodaux), ainsi que de comprendre et de générer des images, de l’audio, de la parole et de la musique.
La méthode la plus courante pour ajouter la parole aux modèles multimodaux consiste à la convertir en petites unités de base appelées jetons audio, qui fonctionnent pour l’audio un peu comme les caractères pour le texte. Cependant, les jetons audio véhiculent encore beaucoup d’informations, ce qui rend la parole plus difficile à traiter que le texte. Malgré les progrès récents, l’intégration de la parole dans les grands modèles de langage reste un défi majeur.
« La parole est un signal extrêmement riche et complexe« , explique Luca Della Libera, doctorant à l’École d’ingénierie et d’informatique Gina Cody. « Au-delà des mots que nous prononçons, elle transporte des informations sur nos émotions, notre accent, notre identité et de nombreux autres indices.«
« En raison de cette complexité, les jetons audio standards ont souvent un débit binaire élevé (la quantité d’information contenue dans chaque seconde d’audio). Ils condensent une énorme quantité d’information par seconde d’audio, ce qui rend difficile pour les grands modèles de langage d’apprendre efficacement de la parole.«
Se concentrer sur le sens de la parole
Della Libera et ses collaborateurs ont développé FocalCodec, une nouvelle méthode de tokenisation audio qui comprime la parole bien plus efficacement que les approches précédentes. Elle préserve à la fois le son et le sens des mots avec un débit binaire ultra-faible.
Plutôt que de s’appuyer sur des étapes de traitement lourdes, le système utilise une méthode simple pour transformer l’audio en unités compactes (quantification sphérique binaire) et une technique qui aide le modèle à se concentrer sur les parties les plus significatives de la parole (modulation focale). Cela rend l’analyse plus rapide et conserve intactes les qualités essentielles de la voix.
Pour tester FocalCodec, l’équipe a mené une étude d’écoute avec 33 participants qui ont comparé différents échantillons audio. Les participants ont souvent jugé la parole reconstruite comme quasi identique aux enregistrements originaux. Cela montre que le système peut réduire considérablement la parole sans la faire paraître robotique ou déformée.
Reconnu lors d’une conférence majeure en IA
Ce travail a été accepté à la Trente-neuvième conférence annuelle sur les systèmes de traitement de l’information neuronale, l’une des conférences les plus sélectives en apprentissage automatique et intelligence artificielle.
« Ce travail est particulièrement important, car il introduit une approche novatrice qui peut être très précieuse pour construire des LLM multimodaux modernes« , souligne Mirco Ravanelli, professeur adjoint et superviseur de Della Libera. « En rendant la parole plus légère et plus facile à intégrer, nous nous rapprochons de systèmes d’IA qui comprennent le son avec la même confiance qu’ils apportent au texte.«
L’article comprend également les contributions de Francesco Paissan, chercheur invité au Mila et étudiant de premier cycle à l’Université de Trente, et de Cem Subakan, professeur adjoint affilié à Concordia.











