Des chercheurs de Columbia Engineering ont développé un robot capable d’apprendre les mouvements labiaux pour la parole et le chant par observation. L’équipe a créé un visage robotique flexible équipé de 26 moteurs qui s’est entraîné devant un miroir puis en regardant des heures de vidéos humaines. Cette avancée technique pourrait permettre aux robots humanoïdes de franchir la « vallée dérangeante » et d’améliorer leurs interactions avec les humains.
La communication humaine repose pour près de la moitié sur l’observation des mouvements labiaux, une dimension que les robots peinent encore à maîtriser. Alors que les humanoïdes les plus sophistiqués se contentent souvent de gestes mécaniques rappelant des marionnettes, une équipe de Columbia Engineering vient d’annoncer une percée significative dans ce domaine longtemps négligé.
L’apprentissage par l’observation plutôt que par la programmation
Le robot développé par les chercheurs a acquis ses compétences labiales par une méthode d’apprentissage par observation, rompant avec les approches traditionnelles basées sur des règles prédéfinies. Dans un premier temps, l’appareil a appris à contrôler ses 26 moteurs faciaux en observant son propre reflet dans un miroir, effectuant des milliers d’expressions aléatoires. Cette phase d’auto-apprentissage, comparable à celle d’un enfant découvrant son visage, a permis au système de comprendre la relation entre l’activation musculaire et les mouvements faciaux résultants.
Dans un second temps, les chercheurs ont exposé le robot à des heures de vidéos YouTube montrant des humains parlant et chantant. L’intelligence artificielle a ainsi pu établir des corrélations entre les sons émis et les mouvements labiaux correspondants. « Plus il interagit avec les humains, mieux il deviendra », explique Hod Lipson, professeur d’innovation au département de génie mécanique et directeur du Creative Machines Lab de Columbia.
Les défis techniques de la synchronisation labiale
La réalisation de mouvements labiaux robotiques convaincants présente plusieurs difficultés majeures :
- La nécessité d’un matériel spécialisé avec une peau faciale flexible et de nombreux petits moteurs fonctionnant en coordination
- La complexité des modèles de dynamique labiale, dictés par des séquences de sons vocaux et de phonèmes
- La différence fondamentale entre les systèmes musculaires humains et les mécanismes robotiques
Les visages humains bénéficient de dizaines de muscles situés sous une peau souple, se synchronisant naturellement avec les cordes vocales. En revanche, les visages humanoïdes traditionnels fonctionnent avec peu de degrés de liberté et des mouvements chorégraphiés selon des règles rigides, produisant des résultats souvent guindés et artificiels.
Les chercheurs reconnaissent que le mouvement labial obtenu n’est pas encore parfait. « Nous avons eu des difficultés particulières avec les sons durs comme ‘B’ et avec les sons impliquant une protrusion des lèvres, comme ‘W’. Mais ces capacités s’amélioreront probablement avec le temps et la pratique », précise Lipson.
Vers une communication robotique plus holistique
La synchronisation labiale représente selon les chercheurs un élément essentiel d’une capacité de communication robotique plus complète. « Lorsque la capacité de synchronisation labiale est combinée avec une IA conversationnelle comme ChatGPT ou Gemini, l’effet ajoute une toute nouvelle profondeur à la connexion que le robot forme avec l’humain », souligne Yuhang Hu, qui a dirigé l’étude pour son doctorat.
Cette approche s’inscrit dans une perspective plus large où les robots pourraient développer des compétences de communication non verbale plus sophistiquées. « Plus le robot regarde les humains converser, mieux il deviendra pour imiter les gestes faciaux nuancés avec lesquels nous pouvons nous connecter émotionnellement », ajoute Hu.
L’affect facial, le chaînon manquant de la robotique
Les chercheurs considèrent l’expression faciale comme le chaînon manquant de la robotique contemporaine. « Une grande partie de la robotique humanoïde aujourd’hui est concentrée sur le mouvement des jambes et des mains, pour des activités comme la marche et la préhension. Mais l’affection faciale est tout aussi importante pour toute application robotique impliquant une interaction humaine », analyse Lipson.
Cette dimension devient particulièrement cruciale alors que les robots humanoïdes trouvent des applications dans des domaines variés :
- Le divertissement et l’éducation
- La médecine et les soins de santé
- L’assistance aux personnes âgées
Certaines projections économiques anticipent la fabrication de plus d’un milliard d’humanoïdes dans la prochaine décennie, rendant la question de leur expressivité faciale plus pressante que jamais.
Des considérations éthiques et limites techniques
Les chercheurs sont conscients des implications éthiques de leurs travaux. « Ce sera une technologie puissante. Nous devons y aller lentement et prudemment, afin que nous puissions récolter les bénéfices tout en minimisant les risques », met en garde Lipson.
Cette recherche s’inscrit dans une quête plus large visant à améliorer la connectivité entre robots et humains par la maîtrise des gestes faciaux. L’approche par apprentissage plutôt que par programmation rigide présente selon les chercheurs des avantages significatifs en termes de naturalité et d’adaptabilité.
Le chemin vers des expressions faciales robotiques véritablement convaincantes reste long, mais cette avancée marque une étape importante dans la résolution d’un problème technique longtemps considéré comme secondaire. Alors que les robots humanoïdes se multiplient, leur capacité à communiquer de manière naturelle et expressive pourrait bien déterminer leur acceptation sociale et leur utilité pratique dans des contextes où l’interaction humaine est centrale.
Source : Columbia U.











