Salle de presse |
Reconnaissance des émotions par ordinateur à partir de la voix humaine : Le CRIM remporte le premier concours mondialMontréal, le 14 octobre 2009 L’équipe de Pierre Dumouchel, professeur titulaire au département de génie logiciel et des TI à l’École de technologie supérieure (ÉTS) et vice-président scientifique du Centre de recherche informatique de Montréal (CRIM), a remporté en septembre le prix de reconnaissance des émotions positives et négatives, à l’occasion de l’Interspeech Emotion Challenge 2009 de l’International Speech Communication Association, premier concours de reconnaissance des émotions par ordinateur à partir de la voix organisé à l’échelle mondiale. Avec un taux de reconnaissance surpassant de 2,6 % le système nec plus ultra de détection des émotions positives et négatives, sur des extraits audio de voix d’enfants de durées extrêmement courtes, le CRIM s’est significativement distingué de ses concurrents. À partir d’extraits d’à peine une à trois secondes, où l’on entendait des enfants exprimer un mot ou deux en allemand, l’équipe du CRIM a réussi à déterminer la tendance de leur émotion en s’appuyant uniquement sur l’acoustique et la prosodie, c’est-à-dire la hauteur et l’intensité du son émis durant l’expression de syllabes. Cette technique, développée par l’ÉTS et le CRIM au fil des ans, a été déterminante de son succès. En effet, les « pseudo-syllabes » ont permis aux chercheurs d’analyser les extraits sur des durées pouvant aller jusqu’à une demi-seconde, ce qui est immense comparativement aux infiniment courtes durées de centièmes de seconde utilisées par les autres équipes participantes. Les systèmes de toutes les équipes ont été entraînés avec des échantillons d’une durée totale d’environ une heure seulement. « Notre expérience dans le développement de tests de reconnaissance de la voix pour des systèmes comme Émilie, de Bell, nous a conféré une longueur d’avance », a expliqué M. Dumouchel. « Depuis des années, le CRIM travaille avec des centres d’appels pour reconnaître la parole, mais aussi avec des stations de télévision pour sous-titrer des reportages au bulletin de nouvelles, ou pour sous-titrer les matchs de hockey pour les malentendants », a-t-il ajouté. Aujourd’hui, les systèmes du CRIM sont utilisés par RDS, TVA, TQS et la Chambre des communes. L’équipe de M. Dumouchel réunissait deux doctorants à l’ÉTS en reconnaissance de l’identité à l’aide de la voix et en signal audio, à savoir Najim Dehak (présentement post-doctorant au Massachusetts Institute of Technology (MIT), codirigé par MM. Dumouchel et Patrick Kenny, chercheur au CRIM), Yazid Attabi, (dirigé par M. Dumouchel), ainsi que Réda Dehak, professeur à l’École pour l’informatique et les techniques avancées (ÉPITA), en France, et Narjès Boufaden, également chercheure au CRIM. Le CRIM et les doctorants dirigés par le professeur Dumouchel songent à des applications commerciales et sociales d’avenir pour la reconnaissance des émotions par la voix. Il pourrait s’agir de pouvoir rappeler des consommateurs frustrés de leur expérience vocale automatisée dans les centres d’appels, ou alors de reconnaître la sincérité à vouloir poursuivre un traitement dans la voix d’alcooliques ou de toxicomanes. Lancé par l’International Speech Communication Association dans le cadre de sa 10e conférence Interspeech tenue à Brighton, au Royaume-Uni, au début de septembre 2009, le concours réunissait une quinzaine d’équipes de chercheurs de partout dans le monde. Le CRIM est familier avec ces campagnes d’évaluation notamment celles visant à reconnaître l’identité du locuteur, spécialité dans laquelle le CRIM est d’ailleurs un chef de file mondial. Les approches du chercheur principal de l’équipe de reconnaissance de la parole, Patrick Kenny, ont été adoptées par la communauté scientifique mondiale dans le domaine de la reconnaissance du locuteur et abondamment citées lors de cette conférence. À propos du CRIM ― 30 ― Source : |
![]() |
|
|||||



