Application des technologies vocales du CRIM aux langues autochtones


Indexation des enregistrements audio en langues autochtones pour permettre la recherche par mot-clé

Lire l'annonce de collaboration sur ce projet (5 décembre 2018)

Lire l'article de Radio-Canada sur le projet (Espaces Autochtones, 6 décembre 2018)

La collaboration du CNRC avec le CRIM est axée sur l'application des technologies d'indexation audio et de reconnaissance du locuteur aux langues autochtones. Au fil des ans, des centaines de milliers d'heures de discours ont été enregistrées dans diverses langues autochtones. Malheureusement, ces enregistrements ne sont généralement pas annotés ou indexés. Étonnamment, même les données sur la parole recueillies actuellement par les communautés et les linguistes autochtones ont ce problème. Du fait que les chercheurs ne disposent pas des outils nécessaires pour segmenter les données sur la parole au moment de leur enregistrement, le nombre de données non annotées en langues autochtones est en constante augmentation.

Les experts du CRIM s'attaquent à deux aspects de cette problématique.


Segmentation de la parole pour faciliter l'annotation des données

Nous développons des outils simples pour segmenter les enregistrements vocaux.

  • La détection de l'activité vocale sépare les fichiers audio en données vocales et non vocales.  Nous avons développé et testé un détecteur basé sur un réseau de neurones profond formé sur de grandes quantités de parole dans différentes langues ;
  • L'extraction du locuteur est utilisée pour identifier quand un locuteur donné parle, en utilisant un court échantillon de la voix du locuteur (requête par exemple). Nous avons développé un système basé sur des i-vecteurs et nous l'améliorons actuellement avec une approche d'apprentissage profond;
  • Nous avons créé un outil de repérage linguistique qui permet d'identifier l'inuktitut et le cri de l'Est parlés, à partir d'un échantillon de 5 secondes, parmi 32 langues.

Ces outils peuvent être utilisés par des logiciels que les linguistes connaissent bien. Ainsi, ils devraient faciliter l'annotation de la parole en cours de collecte pour une variété de langues.

Segmentation automatique affichée dans le logiciel d'annotation linguistique ELAN
 

Outil d'indexation pour la recherche par mot-clé dans le contenu

Nous prévoyons également construire des systèmes qui permettront de rechercher des mots ou des phrases particuliers dans les enregistrements audio dans certaines langues autochtones. Il ne s'agira pas d'une reconnaissance vocale complète et nous ne créerons pas de systèmes capables de produire des transcriptions de haute qualité de tout ce qui a été dit dans un enregistrement. Les systèmes permettront plutôt la recherche par mot-clé audio, de sorte que les utilisateurs pourront faire des recherches rapides dans de longs enregistrements audio à la recherche de mots ou de sujets particuliers. Pour atteindre cet objectif, nous devons adapter les principales composantes de la reconnaissance vocale qui modélisent les mots, les phonèmes et les sons de la parole, et trouver leurs limites lorsqu'elles sont appliquées aux langues autochtones.

  • Nous avons constaté que les représentations verbales habituelles ne fonctionnent pas pour l'inuktitut. En anglais, un vocabulaire de 20 000 mots est suffisamment vaste pour que seulement 5 % des mots d'un nouveau texte ne soient pas inclus dans le vocabulaire. Par contre, notre collection de documents en inuktitut contient un vocabulaire de 1,3 million de mots distincts, et pourtant, dans tout nouveau texte en inuktitut, environ 60 % des mots n'ont jamais été vus auparavant, en raison de la structure linguistique agglutinante de l'Inuktitut. Nous élaborons de nouvelles approches qui permettent de modéliser le riche vocabulaire observé dans de nombreuses langues autochtones du Canada sans avoir recours à un ensemble limité de mots.

  • Nous avons été en mesure de produire automatiquement des transcriptions phonétiques en cri de l'Est avec moins de 10 % d'erreur, créant ainsi un système à partir de zéro avec seulement quatre heures de matériel prétranscrit. C'est assez précis pour aider les linguistes dans leur course à documenter certaines langues avant qu'il n'y ait plus de locuteurs.
  • Nous avons montré qu'un reconnaissance vocale formé sur une grande quantité d'anglais peut trouver la position exacte des mots dans les enregistrements audio, même pour les textes en inuktitut et en cri, ce qui permet de créer des livres audio avec texte synchronisé pour être utilisés comme matériel pédagogique et applications d'apprentissage linguistique.

Texte inuktitut aligné avec l'enregistrement audio.

Jusqu'à présent, notre travail s'est concentré sur les données en inuktitut et en cri. Le Centre Pirurvik fournit une aide précieuse sur l'aspect inuktitut de ce projet. Nous ciblons maintenant d'autres langues, comme le Tsuut'inai et le michif, pour explorer leurs propriétés spécifiques et nous assurer que nos outils sont applicables à un large éventail de langues autochtones.

Équipes

Nouvelles récentes

  • Le CRIM en chiffres 2018-19
    17/07/2019

    Indicateurs clés de l'exercice 2018-19

    +

Événement à venir

  • QRS 2019
    26/07/19 0h00
    Sofia, Bulgarie
    Le CRIM présentera un article à la «19th IEEE International Conference on Software Quality, Reliability, and Security» qui se déroulera du 22 au 26 juillet 2019 à Sofia, Bulgarie.
    +
  • Rémi Quirion RT @SciChefQC: Étudiants internationaux #maitrise #doctorat #postdoc #sciencesdelavie #technologiesanté #TI #aérospatiale #MTL, découvrez l…
  • Rémi Quirion RT @SciChefQC: #MA, #PhD, #postdoc #LifeSciences #HealthTechnologies #IT #aerospace international students of #MTL, come meet recruiters at…

Publications récentes

  • Forage de données géospatiales, quelques applications

    +
  • Des technologies perturbatrices pour de futures applications du bâtiment intelligent utilisant AI

    +