Conseil National de recherches Canada (CNRC)

Adapter les technologies vocales aux langues autochtones canadiennes

En collaboration avec le CNRC, le CRIM développe des outils d’indexation audio et de reconnaissance du locuteur adaptés aux langues autochtones. 

Contexte

Dans le cadre d’une collaboration à long terme avec le Conseil national de recherches du Canada (CNRC), le CRIM met à contribution son expertise afin d’adapter ses technologies de reconnaissance vocale aux langues autochtones. L’équipe du CRIM travaille en partenariat avec des organismes communautaires autochtones et des communautés autochtones partout au Canada.

La problématique : l’absence d’indexation du contenu

Au fil des ans, des centaines de milliers d’heures de discours ont été enregistrées dans diverses langues autochtones. Malheureusement, ces enregistrements ne sont généralement pas annotés ou indexés. Étonnamment, même les données sur la parole actuellement recueillies par les communautés et les linguistes autochtones ont ce problème. Du fait que les chercheurs ne disposent pas des outils nécessaires pour segmenter les données sur la parole au moment de leur enregistrement, le nombre de données non annotées en langues autochtones est en constante augmentation.

Le CRIM, expert en technologies vocales

Partie prenante de ce vaste projet pancanadien, le CRIM réalise deux projets qui serviront de base au développement d’une douzaine de systèmes liés à la reconnaissance de la parole et adaptés aux langues visées.

Projet 1 – Segmentation de la parole pour faciliter l’annotation des données

Le CRIM développe des outils simples pour segmenter les enregistrements vocaux.

  • La détection de l’activité vocale sépare les fichiers audio en données vocales et non vocales. Nos experts ont développé et testé un détecteur basé sur un réseau de neurones profond formé sur de grandes quantités de parole dans différentes langues;
  • L’extraction du locuteur est utilisée pour identifier quand un locuteur donné parle, en utilisant un court échantillon de la voix du locuteur (une requête, par exemple). Nos équipes ont développé un système basé sur des i-vecteurs et l’améliorent actuellement avec une approche d’apprentissage profond;
  • Un outil de repérage linguistique a été créé. Il permet d’identifier l’inuktitut et le cri de l’Est parlés, à partir d’un échantillon de 5 secondes, parmi 32 langues.

Ces outils peuvent être utilisés par des logiciels que les linguistes connaissent bien. Ainsi, ils devraient faciliter l’annotation de la parole en cours de collecte pour une variété de langues.

Projet 2 – Outil d’indexation pour la recherche par mot-clé dans le contenu

Le CRIM désire construire des systèmes qui permettront de rechercher des mots ou des phrases particuliers dans les enregistrements audio dans certaines langues autochtones. Il ne s’agira pas d’une reconnaissance vocale complète : pour l’instant, nos équipes ne créeront pas de systèmes capables de produire des transcriptions de haute qualité de tout ce qui a été dit dans un enregistrement. Les systèmes permettront plutôt la recherche par mot-clé audio, de sorte que les utilisateurs pourront faire des recherches rapides dans de longs enregistrements audio à la recherche de mots ou de sujets particuliers. Pour atteindre cet objectif, il faut adapter les principales composantes de la reconnaissance vocale qui modélisent les mots, les phonèmes et les sons de la parole, et trouver leurs limites lorsqu’elles sont appliquées aux langues autochtones.

  • Nos experts ont constaté que les représentations verbales habituelles ne fonctionnent pas pour l’inuktitut. En anglais, un vocabulaire de 20 000 mots est suffisamment vaste pour que seulement 5 % des mots d’un nouveau texte ne soient pas inclus dans le vocabulaire. Par contre, notre collection de documents en inuktitut contient un vocabulaire de 1,3 million de mots distincts, et pourtant, dans tout nouveau texte en inuktitut, environ 60 % des mots n’ont jamais été vus auparavant, en raison de la structure linguistique agglutinante de l’Inuktitut. Nos équipes élaborent présentement de nouvelles approches qui permettent de modéliser le riche vocabulaire observé dans de nombreuses langues autochtones du Canada sans avoir recours à un ensemble limité de mots.
  • Nous avons été en mesure de produire automatiquement des transcriptions phonétiques en cri de l’Est avec moins de 10 % d’erreur, créant ainsi un système à partir de zéro avec seulement quatre heures de matériel prétranscrit. Ces résultats sont assez précis pour aider les linguistes dans leur course à documenter certaines langues avant qu’il n’y ait plus de locuteurs.
  • Nos experts ont montré qu’un système de reconnaissance vocale formé sur une grande quantité d’anglais peut trouver la position exacte des mots dans les enregistrements audio, même pour les textes en inuktitut et en cri. Cela permet de créer des livres audio avec texte synchronisé pour être utilisés comme matériel pédagogique et applications d’apprentissage linguistique.

Jusqu’à présent, notre travail s’est concentré sur les données en inuktitut et en cri. Le Centre Pirurvik fournit une aide précieuse sur l’aspect inuktitut de ce projet. Nous ciblons maintenant d’autres langues, comme le Tsuut’inai et le michif, pour explorer leurs propriétés spécifiques et nous assurer que nos outils sont applicables à un large éventail de langues autochtones.

Un projet d’envergure à suivre de près!

Lire aussi :
Les technologies au service des langues autochtones (L’actualité)
La revitalisation des langues autochtones, un travail de longue haleine (Radio-Canada)
De nouvelles technologies développées à Montréal pour préserver les langues autochtones (Radio-Canada)

Client

Conseil National de recherches Canada (CNRC)

Partenaire

- Université Carleton
- Université d’Alberta
- Société Radio-Canada
- Centre Pirurvik

Autres projets