Le CRIM parmi les leaders mondiaux en biométrie vocale!


Pour tout savoir de l'histoire de la biométrie vocale au CRIM,
consultez la fiche!

Sommaire : L’équipe Parole et Texte développe depuis plus de 30 ans diverses technologies de reconnaissance de la parole et du locuteur. Son expertise a eu tôt fait de la placer parmi les leaders mondiaux du domaine. Depuis 1992, l'équipe participe fréquemment à des compétitions internationales dans le but de tester ses méthodes et de les comparer avec celles d’autres chercheurs du domaine.

Ce type d’événement, au cours duquel plusieurs équipes de recherche tentent de résoudre le même problème, permet d’évaluer la performance de la technologie du CRIM par rapport à des outils similaires développés par d’autres chercheurs, mais aussi d’entrevoir les avenues de développement les plus prometteuses dans ce domaine en constante évolution.

Dans la communauté scientifique, l’impact de la présence des experts du CRIM dans ces compétitions a mené à plusieurs changements dans le paradigme des tests ainsi qu’à l'adoption par plusieurs des sites de recherche de certaines méthodes utilisées par le CRIM telles que les i-vecteurs, l’analyse factorielle et l'analyse probabiliste linéaire discriminative.


NIST SRE – Campagne d’évaluation en reconnaissance du locuteur


L'évaluation en reconnaissance du locuteur (Speaker Recognition Evaluation) du National Institute of Standards and Technology (NIST), aux États-Unis, est l’un des processus d’évaluation technologique les plus reconnus dans le domaine. Ces évaluations sont destinées à tous les chercheurs qui travaillent sur le problème général de la reconnaissance indépendante du locuteur. Plus d’une quarantaine d’équipes participent à chaque édition.

L’équipe Parole et Texte du CRIM a participé aux évaluations du NIST en 2005, 2006, 2008, 2010, 2012 et 2016. Dès leur première année de participation, les experts du CRIM se sont classés parmi les meilleurs sur la planète. Depuis 2006, le CRIM s'est bien classé dans plusieurs conditions de l'évaluation NIST SRE chaque année.

Comment ça fonctionne?

À partir de l’annonce du défi à relever, les équipes disposent d’environ 4 mois pour entraîner leurs systèmes respectifs à effectuer la tâche demandée, en utilisant les données annotées fournies par le NIST, selon la technique de l’apprentissage automatique (machine learning).

Puis, les équipes reçoivent des données non annotées pour tester leur système. Ils transmettent les réponses obtenues au NIST. Comme toutes les équipes sont parties des mêmes données pour entraîner leur modèle, il devient possible de comparer la performance des systèmes entre eux et de les classifier.

Un atelier de travail collaboratif (workshop) est ensuite organisé afin que tous les chercheurs puissent se rencontrer, observer leurs résultats respectifs et partager leurs connaissances.

Qui participe?

Plusieurs dizaines de groupes de recherche comprenant chacun plusieurs partenaires (centres de recherche, universités et compagnies privées) provenant de quatre continents. On y retrouve aussi des représentants des départements de recherche de certaines grandes entreprises technos comme IBM Research ou Alibaba, ou des compagnies spécialisées dans le domaine de la voix comme le groupe Nuance.
 

À quoi servent les compétitions?

Pour les chercheurs, elles sont l’occasion de tester de nouvelles idées et de partager leurs connaissances avec d’autres spécialistes du domaine. Même si son système est l’un des plus précis au monde, le CRIM modifie son approche ou ajoute des composantes à son système à chaque compétition, afin de tester de nouvelles techniques et de les comparer à celles d’autres chercheurs : c’est ce partage du savoir qui mène aux plus grandes innovations.

Pour les organisateurs et les commanditaires (de grandes compagnies comme Google et IBM), les compétitions constituent une manière de pousser au dépassement, d’accélérer l’innovation et de créer des outils qui sauront répondre aux demandes du marché actuel et futur. 
 

Dernière compétition du NIST – SRE 2016 

Le CRIM a pris part à la dernière évaluation SRE NIST comme membre du consortium ABC. Le groupe était aussi composé d’Agnitio Voice ID (Espagne) et de Brno University of Technology Speech@FIT and IT4I Center of Excellence (République Tchèque).

Nature du défi de la SRE 2016
La tâche à réaliser pour la compétition SRE 2016 comportait deux défis particuliers pour les chercheurs. Le premier était la durée des enregistrements : dans la plupart des compétitions, les données sonores fournies sont généralement de longueur similaire. En 2016, le NIST a demandé aux équipes d’utiliser et d’identifier des enregistrements de voix très courts et d’autres beaucoup plus longs, ce qui est plus exigeant pour le système, particulièrement dans le cas des extraits courts, qui sont difficiles à bien analyser.

Le second défi se situait au niveau de la nature des données d’entraînement (annotées) en comparaison avec les données d’évaluation (non annotées). Les deux ensembles de données n’appartenaient pas au même domaine (domain mismatch). Les données d’entraînement s’exprimaient uniquement en anglais, alors que lors de l’évaluation les systèmes devaient aussi identifier des voix s’exprimant dans d’autres langues, la plupart asiatiques : mandarin, tagalog, etc.). Réussir à adapter un système pour l’analyse de données hors-domaine fut un réel défi pour de nombreux participants!

Résultats du CRIM
Depuis sa première participation aux évaluations du NIST, le CRIM se classe toujours parmi le peloton de tête pour la performance de ses systèmes
. Nos experts sont reconnus comme des leaders mondiaux du domaine de la reconnaissance du locuteur!
De plus, lors de la NIST SRE 2016, le CRIM a proposé une approche complètement différente de celle des autres participants, en misant sur en misant sur une représentation des enregistrements obtenue par apprentissage profond (deep learning embeddings), sur une adaptation de domaine non supervisée et sur un classificateur Beta-Bernoulli.

D’une édition à l’autre, les défis se ressemblent-ils?

Pas nécessairement (hors de l’aspect « reconnaissance du locuteur », évidemment!) L’évolution des défis proposés dans les compétitions fait souvent écho aux besoins des entreprises qui utilisent ces technologies dans leurs produits ou activités.

Par exemple, au début des compétitions NIST SRE, la reconnaissance du locuteur s’effectuait surtout via des enregistrements téléphoniques. Aujourd’hui, les compétitions sont plutôt basées sur des enregistrements capturés par des micros, souvent plusieurs à la fois, car ce type de situation ressemble plus à la réalité des téléphones intelligents ou des appareils connectés (Internet des objets, Google Home), qui possèdent souvent plusieurs micros.

Pour répondre aux besoins de ce marché en rapide évolution, les compétitions telles que la NIST SRE ont commencé à proposer des défis plus exigeants, qui ressemblent plus à une situation de la vie réelle qu’à un environnement de laboratoire : reconnaître une voix malgré la réverbération d’une pièce, le bruit de fond, la qualité médiocre du micro, l’interruption par une deuxième voix, etc.

En outre, les épreuves de type « anti-usurpateur » (anti-spoofing) sont aussi de plus en plus courantes, car les compagnies qui fournissent des systèmes d’authentification vocale à leurs clients veulent s’assurer que leur système est à l’abri des fraudes.

Et c’est loin d’être terminé! Suivez les nouvelles du CRIM pour ne rien manquer des prochaines évaluations auxquels nos experts participeront!

Publications scientifiques

Participation aux NIST Speaker Recognition Evaluation en 2005, 2006, 2008, 2010, 2012, 2016. Ici publications relevées seulement depuis 2008.

NIST SRE 2016
[1] A. Silnova et al., “Analysis and Description of ABC Submission to NIST SRE 2016,” in Interspeech, 2017, pp. 1348–1352.

[2] J. Alam, P. Kenny, G. Bhattacharya, and M. Kockmann, “Speaker Verification Under Adverse Conditions Using I-vector Adaptation and Neural Networks,” in Interspeech, 2017, pp. 3732–3736.

[3] T. Stafylakis, P. Kenny, V. Gupta, J. Alam, and M. Kockmann, “Compensation for phonetic nuisance variability in speaker recognition using DNNs,” in Odyssey The Speaker and Language Recognition Workshop, 2016, pp. 340–345.

NIST SRE 2012
[1] P. Kenny, V. N. Gupta, T. Stafylakis, M. J. Alam, and P. Ouellet, “Deep Neural Networks for extracting Baum-Welch statistics for Speaker Recognition,” IEEE Speaker and Language Recognition Workshop. IEEE, pp. 1–18, 19-Jun-2014.

[2] P. Kenny, “A small footprint i-vector extractor.” in IEEE Speaker and Language Recognition Workshop, 2012, pp. 1–6.

[3] M. Senoussaoui, N. Dehak, P. Kenny, R. Dehak, and P. Dumouchel, “First attempt at boltzmann machines for speaker verification.,” IEEE Speaker and Language Recognition Workshop. IEEE, pp. 117–121, 01-Jan-2012

[4] T. Stafylakis, P. Kenny, M. Senoussaoui, and P. Dumouchel, “Preliminary investigation of Boltzmann machine classifiers for speaker recognition.,” in IEEE Speaker and Language Recognition Workshop, 2012, pp. 109–116.

[5] T. Stafylakis, V. Katsouros, P. Kenny, and P. Dumouchel, “Mean shift algorithm for exponential families with applications to speaker clustering.” Odyssey, pp. 324–329, Jan. 2012.

NIST SRE 2010

[1] P. Kenny, “Bayesian Speaker Verification with Heavy-Tailed Priors.” in IEEE Speaker and Language Recognition Workshop, 2010, pp. 1–41.

[2] M. Senoussaoui, P. Kenny, N. Dehak, and P. Dumouchel, “An i-vector Extractor Suitable for Speaker Recognition with both Microphone and Telephone Speech.,” Odyssey Speak. Lang. Recognit. Work. p. 6, Jan. 2010.

[3] N. Dehak, R. Dehak, J. R. Glass, D. A. Reynolds, and P. Kenny, “Cosine Similarity Scoring without Score Normalization Techniques.” Odyssey Speak. Lang. Recognit. Work., p. 15, Jan. 2010.

NIST SRE 2008

[1] N. Dehak, R. Dehak, P. Kenny, and P. Dumouchel, “Comparison between factor analysis and GMM support vector machines for speaker verification.” Odyssey, p. 9, Jan. 2008.

[2] P. Kenny, N. Dehak, P. Ouellet, V. N. Gupta, and P. Dumouchel, “Development of the primary CRIM system for the NIST 2008 speaker recognition evaluation.,” Proc Interspeech, pp. 1401–1404, Jan. 2008.

Équipes

Nouvelles récentes

  • Le CRIM partie prenante d'un vaste projet technologique autour des langues autochtones canadiennes!
    05/12/2018

    Le CRIM est fier d’annoncer le début d’une collaboration à long terme avec le Conseil national de recherches du Canada (CNRC) dans le cadre d’un projet visant à encourager la revitalisation et la préservation des langues autochtones grâce aux technologies

    +

Événement à venir

  • HASE 2019
    3/01/19 2019h00
    Hangzhou, China
    Le CRIM présentera deux articles à la 19e édition du IEEE International Symposium on High Assurance Systems Engineering, qui se déroulera du 3 au 5 janvier 2019 à Hangzhou, Chine
    +
  • Montréal International RT @MTLINTL: #DYK Montréal has one of the deepest #AI talent pools in the world ???? More details ???? https://t.co/R073su8k8z #NeurIPS #NeurIPS2…
  • Tom Landry RT @Tom_Landry_: Hey @opengeospatial and @CRIM_ca ! Poster is set up at #AGU18 to present (draft) work of #MachineLearning task of Testbed-…

Publications récentes

  • Towards Automatic Feature Extraction for Activity Recognition from Wearable Sensors: A Deep Learning Approach

    +
  • Checking Sequence Generation for Symbolic Input/Output FSMs by Constraint Solving

    +