Application des technologies vocales du CRIM aux langues autochtones


Indexation des enregistrements audio en langues autochtones pour permettre la recherche par mot-clé

La revitalisation des langues autochtones, un travail de longue haleine (Espaces Autochtones, 5 septembre 2019)

Annonce de collaboration sur ce projet (5 décembre 2018)

De nouvelles technologies développées à Montréal pour préserver les langues autochtones (Espaces Autochtones, 6 décembre 2018)

La collaboration du CNRC avec le CRIM est axée sur l'application des technologies d'indexation audio et de reconnaissance du locuteur aux langues autochtones. Au fil des ans, des centaines de milliers d'heures de discours ont été enregistrées dans diverses langues autochtones. Malheureusement, ces enregistrements ne sont généralement pas annotés ou indexés. Étonnamment, même les données sur la parole recueillies actuellement par les communautés et les linguistes autochtones ont ce problème. Du fait que les chercheurs ne disposent pas des outils nécessaires pour segmenter les données sur la parole au moment de leur enregistrement, le nombre de données non annotées en langues autochtones est en constante augmentation.

Les experts du CRIM s'attaquent à deux aspects de cette problématique.


Segmentation de la parole pour faciliter l'annotation des données

Nous développons des outils simples pour segmenter les enregistrements vocaux.

  • La détection de l'activité vocale sépare les fichiers audio en données vocales et non vocales.  Nous avons développé et testé un détecteur basé sur un réseau de neurones profond formé sur de grandes quantités de parole dans différentes langues ;
  • L'extraction du locuteur est utilisée pour identifier quand un locuteur donné parle, en utilisant un court échantillon de la voix du locuteur (requête par exemple). Nous avons développé un système basé sur des i-vecteurs et nous l'améliorons actuellement avec une approche d'apprentissage profond;
  • Nous avons créé un outil de repérage linguistique qui permet d'identifier l'inuktitut et le cri de l'Est parlés, à partir d'un échantillon de 5 secondes, parmi 32 langues.

Ces outils peuvent être utilisés par des logiciels que les linguistes connaissent bien. Ainsi, ils devraient faciliter l'annotation de la parole en cours de collecte pour une variété de langues.

Segmentation automatique affichée dans le logiciel d'annotation linguistique ELAN
 

Outil d'indexation pour la recherche par mot-clé dans le contenu

Nous prévoyons également construire des systèmes qui permettront de rechercher des mots ou des phrases particuliers dans les enregistrements audio dans certaines langues autochtones. Il ne s'agira pas d'une reconnaissance vocale complète et nous ne créerons pas de systèmes capables de produire des transcriptions de haute qualité de tout ce qui a été dit dans un enregistrement. Les systèmes permettront plutôt la recherche par mot-clé audio, de sorte que les utilisateurs pourront faire des recherches rapides dans de longs enregistrements audio à la recherche de mots ou de sujets particuliers. Pour atteindre cet objectif, nous devons adapter les principales composantes de la reconnaissance vocale qui modélisent les mots, les phonèmes et les sons de la parole, et trouver leurs limites lorsqu'elles sont appliquées aux langues autochtones.

  • Nous avons constaté que les représentations verbales habituelles ne fonctionnent pas pour l'inuktitut. En anglais, un vocabulaire de 20 000 mots est suffisamment vaste pour que seulement 5 % des mots d'un nouveau texte ne soient pas inclus dans le vocabulaire. Par contre, notre collection de documents en inuktitut contient un vocabulaire de 1,3 million de mots distincts, et pourtant, dans tout nouveau texte en inuktitut, environ 60 % des mots n'ont jamais été vus auparavant, en raison de la structure linguistique agglutinante de l'Inuktitut. Nous élaborons de nouvelles approches qui permettent de modéliser le riche vocabulaire observé dans de nombreuses langues autochtones du Canada sans avoir recours à un ensemble limité de mots.

  • Nous avons été en mesure de produire automatiquement des transcriptions phonétiques en cri de l'Est avec moins de 10 % d'erreur, créant ainsi un système à partir de zéro avec seulement quatre heures de matériel prétranscrit. C'est assez précis pour aider les linguistes dans leur course à documenter certaines langues avant qu'il n'y ait plus de locuteurs.
  • Nous avons montré qu'un reconnaissance vocale formé sur une grande quantité d'anglais peut trouver la position exacte des mots dans les enregistrements audio, même pour les textes en inuktitut et en cri, ce qui permet de créer des livres audio avec texte synchronisé pour être utilisés comme matériel pédagogique et applications d'apprentissage linguistique.

Texte inuktitut aligné avec l'enregistrement audio.

Jusqu'à présent, notre travail s'est concentré sur les données en inuktitut et en cri. Le Centre Pirurvik fournit une aide précieuse sur l'aspect inuktitut de ce projet. Nous ciblons maintenant d'autres langues, comme le Tsuut'inai et le michif, pour explorer leurs propriétés spécifiques et nous assurer que nos outils sont applicables à un large éventail de langues autochtones.

Lire l'article de Radio-Canada sur le projet (Espaces Autochtones, 6 décembre 2018)

Équipes

Nouvelles récentes

  • Classo : L'expertise du CRIM mise à contribution dans le développement de solutions destinées au milieu de l'éducation
    03/09/2019

    La plateforme Classo vise à faciliter l'accès aux ressources numériques pour les professionnels du milieu de l'éducation.

    +

Événement à venir

  • ICoCSec2019
    26/09/19 0h00
    Malaisie
    Le CRIM présentera 2 articles lors de l'International Conference on Cybersecurity 2019 (ICoC2019). Organisé par Universiti Sains Islam Malaysia en Malaisie, les 25 et 26 septembre 2019.
    +
  • ???????????? #Emplois Développeur logiciel sénior - traitement de la parole #IA #technologies https://t.co/0EAy4N5HZX https://t.co/tmzj58XknA
  • #ÉvénementPartenaire : Forum CIRANO-ADRIQ - Françoys Labonté siégera sur un panel autour de la formation et l'accom… https://t.co/QmyYdYO4Eg

Publications récentes

  • Forage de données géospatiales, quelques applications

    +
  • Des technologies perturbatrices pour de futures applications du bâtiment intelligent utilisant AI

    +