Une nouvelle approche pour aider les grands modèles de langage à apprendre de la parole

Les grands modèles de langage (LLM) comme ChatGPT et Gemini ont été conçus à l’origine pour fonctionner uniquement avec du texte. Aujourd’hui, ils ont évolué en systèmes capables de traiter simultanément de nombreux types d’informations (systèmes multimodaux), ainsi que de comprendre et de générer des images, de l’audio, de la parole et de la musique.

La méthode la plus courante pour ajouter la parole aux modèles multimodaux consiste à la convertir en petites unités de base appelées jetons audio, qui fonctionnent pour l’audio un peu comme les caractères pour le texte. Cependant, les jetons audio véhiculent encore beaucoup d’informations, ce qui rend la parole plus difficile à traiter que le texte. Malgré les progrès récents, l’intégration de la parole dans les grands modèles de langage reste un défi majeur.

« La parole est un signal extrêmement riche et complexe« , explique Luca Della Libera, doctorant à l’École d’ingénierie et d’informatique Gina Cody. « Au-delà des mots que nous prononçons, elle transporte des informations sur nos émotions, notre accent, notre identité et de nombreux autres indices.«

« En raison de cette complexité, les jetons audio standards ont souvent un débit binaire élevé (la quantité d’information contenue dans chaque seconde d’audio). Ils condensent une énorme quantité d’information par seconde d’audio, ce qui rend difficile pour les grands modèles de langage d’apprendre efficacement de la parole.«

Se concentrer sur le sens de la parole

Della Libera et ses collaborateurs ont développé FocalCodec, une nouvelle méthode de tokenisation audio qui comprime la parole bien plus efficacement que les approches précédentes. Elle préserve à la fois le son et le sens des mots avec un débit binaire ultra-faible.

Plutôt que de s’appuyer sur des étapes de traitement lourdes, le système utilise une méthode simple pour transformer l’audio en unités compactes (quantification sphérique binaire) et une technique qui aide le modèle à se concentrer sur les parties les plus significatives de la parole (modulation focale). Cela rend l’analyse plus rapide et conserve intactes les qualités essentielles de la voix.

Pour tester FocalCodec, l’équipe a mené une étude d’écoute avec 33 participants qui ont comparé différents échantillons audio. Les participants ont souvent jugé la parole reconstruite comme quasi identique aux enregistrements originaux. Cela montre que le système peut réduire considérablement la parole sans la faire paraître robotique ou déformée.

Articles à explorer

PhD researcher Robert Komljenovic holding the flexible nylon‑film energy‑harvesting device developed at RMIT University.

Un dispositif en nylon « incroyablement résistant » génère de l’électricité sous des tonnes de pression

23 février 2026

Pangenomique compressive: une avancée pour l’analyse génétique à grande échelle

27 janvier 2026

Reconnu lors d’une conférence majeure en IA

Ce travail a été accepté à la Trente-neuvième conférence annuelle sur les systèmes de traitement de l’information neuronale, l’une des conférences les plus sélectives en apprentissage automatique et intelligence artificielle.

« Ce travail est particulièrement important, car il introduit une approche novatrice qui peut être très précieuse pour construire des LLM multimodaux modernes« , souligne Mirco Ravanelli, professeur adjoint et superviseur de Della Libera. « En rendant la parole plus légère et plus facile à intégrer, nous nous rapprochons de systèmes d’IA qui comprennent le son avec la même confiance qu’ils apportent au texte.«

L’article comprend également les contributions de Francesco Paissan, chercheur invité au Mila et étudiant de premier cycle à l’Université de Trente, et de Cem Subakan, professeur adjoint affilié à Concordia.

Partager l'article avec :

WhatsApp LinkedIn Facebook Telegram Email

Une nouvelle approche pour aider les grands modèles de langage à apprendre de la parole

Un dispositif en nylon « incroyablement résistant » génère de l’électricité sous des tonnes de pression

Pangenomique compressive: une avancée pour l’analyse génétique à grande échelle

Les rayons X rendent la cartographie cérébrale haute résolution accessible

Les grillons grignotent les microplastiques, surtout s’ils ont une grande bouche

La rédaction

A lire également

Le retour en grâce des pompes à chaleur en Europe

Les centres de données IA deviennent des acteurs flexibles du réseau électrique

Record mondial au GSI/FAIR, Darmstadt en tête pour la découverte de nouveaux isomères nucléaires

Des vibrations synchronisées suffisent à modifier les matériaux

Principes théoriques de la manipulation de la structure de bandes dans les isolants fortement corrélés

Le Groupe BMW déploie pour la première fois des robots humanoïdes en production en Allemagne

La technologie améliorée des batteries de VE surpassera la dégradation due au changement climatique

Des scientifiques créent des catalyseurs durables et moins coûteux à partir d’aluminium

Les grillons grignotent les microplastiques, surtout s'ils ont une grande bouche

Des simulations révolutionnaires révèlent comment les trous noirs brillent intensément

Une nouvelle IA pourrait former la prochaine génération de chirurgiens

Laisser un commentaire Annuler la réponse

Inscription newsletter

Tendance

Le retour en grâce des pompes à chaleur en Europe

Les centres de données IA deviennent des acteurs flexibles du réseau électrique

Record mondial au GSI/FAIR, Darmstadt en tête pour la découverte de nouveaux isomères nucléaires

Hausse soudaine des carburants : la flambée des prix à la pompe inquiète les automobilistes

Journée de la femme 2026 : un 8 mars placé sous le signe du droit et de la justice

Points forts

Hausse soudaine des carburants : la flambée des prix à la pompe inquiète les automobilistes

Journée de la femme 2026 : un 8 mars placé sous le signe du droit et de la justice

Microsoft officialise « Project Helix », le nom de code de sa future console Xbox hybride

Des vibrations synchronisées suffisent à modifier les matériaux

Un nouveau système de traitement de l’eau élimine l’azote et le phosphore des eaux de drainage agricole

Des chercheurs développent une nouvelle stratégie pour améliorer les cellules solaires à pérovskite inversées

Articles récents

Le retour en grâce des pompes à chaleur en Europe

Les centres de données IA deviennent des acteurs flexibles du réseau électrique

Bienvenue !

Retrieve your password