{"id":2087,"date":"2019-11-30T15:37:27","date_gmt":"2019-11-30T20:37:27","guid":{"rendered":"https:\/\/wpmanstage.com\/crim\/?post_type=projects&#038;p=2087"},"modified":"2022-10-17T16:22:30","modified_gmt":"2022-10-17T20:22:30","slug":"adapter-les-technologies-vocales-aux-langues-autochtones-canadiennes","status":"publish","type":"projet","link":"https:\/\/www.crim.ca\/fr\/projet\/adapter-les-technologies-vocales-aux-langues-autochtones-canadiennes\/","title":{"rendered":"Adapter les technologies vocales aux langues autochtones canadiennes"},"content":{"rendered":"<p><strong>En collaboration avec le CNRC, le CRIM d\u00e9veloppe des outils d\u2019indexation audio et de reconnaissance du locuteur adapt\u00e9s aux langues autochtones.\u00a0<\/strong><\/p>\n<h3>Contexte<\/h3>\n<p>Dans le cadre d\u2019une collaboration \u00e0 long terme avec le\u00a0<a href=\"https:\/\/www.nrc-cnrc.gc.ca\/fra\/solutions\/collaboration\/langues_autochtones\/index.html\">Conseil national de recherches du Canada (CNRC)<\/a>, le CRIM met \u00e0 contribution son expertise afin d\u2019adapter ses technologies de reconnaissance vocale aux langues autochtones. L\u2019\u00e9quipe du CRIM travaille en partenariat avec des organismes communautaires autochtones et des communaut\u00e9s autochtones partout au Canada.<\/p>\n<h4>La probl\u00e9matique : l\u2019absence d\u2019indexation du contenu<\/h4>\n<p>Au fil des ans, des centaines de milliers d\u2019heures de discours ont \u00e9t\u00e9 enregistr\u00e9es dans diverses langues autochtones. Malheureusement, ces enregistrements ne sont g\u00e9n\u00e9ralement pas annot\u00e9s ou index\u00e9s. \u00c9tonnamment, m\u00eame les donn\u00e9es sur la parole actuellement recueillies par les communaut\u00e9s et les linguistes autochtones ont ce probl\u00e8me. Du fait que les chercheurs ne disposent pas des outils n\u00e9cessaires pour segmenter les donn\u00e9es sur la parole au moment de leur enregistrement, le nombre de donn\u00e9es non annot\u00e9es en langues autochtones est en constante augmentation.<\/p>\n<h4>Le CRIM, expert en technologies vocales<\/h4>\n<p>Partie prenante de ce vaste projet pancanadien, le CRIM r\u00e9alise deux projets qui serviront de base au d\u00e9veloppement d\u2019une douzaine de syst\u00e8mes li\u00e9s \u00e0 la reconnaissance de la parole et adapt\u00e9s aux langues vis\u00e9es.<\/p>\n<h4>Projet 1 \u2013 Segmentation de la parole pour faciliter l\u2019annotation des donn\u00e9es<\/h4>\n<p>Le CRIM d\u00e9veloppe des outils simples pour segmenter les enregistrements vocaux.<\/p>\n<ul>\n<li>La d\u00e9tection de l\u2019activit\u00e9 vocale s\u00e9pare les fichiers audio en donn\u00e9es vocales et non vocales. Nos experts ont d\u00e9velopp\u00e9 et test\u00e9 un d\u00e9tecteur bas\u00e9 sur un r\u00e9seau de neurones profond form\u00e9 sur de grandes quantit\u00e9s de parole dans diff\u00e9rentes langues;<\/li>\n<li>L\u2019extraction du locuteur est utilis\u00e9e pour identifier quand un locuteur donn\u00e9 parle, en utilisant un court \u00e9chantillon de la voix du locuteur (une requ\u00eate, par exemple). Nos \u00e9quipes ont d\u00e9velopp\u00e9 un syst\u00e8me bas\u00e9 sur des i-vecteurs et l\u2019am\u00e9liorent actuellement avec une approche d\u2019apprentissage profond;<\/li>\n<li>Un outil de rep\u00e9rage linguistique a \u00e9t\u00e9 cr\u00e9\u00e9. Il permet d\u2019identifier l\u2019inuktitut et le cri de l\u2019Est parl\u00e9s, \u00e0 partir d\u2019un \u00e9chantillon de 5 secondes, parmi 32 langues.<\/li>\n<\/ul>\n<p>Ces outils peuvent \u00eatre utilis\u00e9s par des logiciels que les linguistes connaissent bien. Ainsi, ils devraient faciliter l\u2019annotation de la parole en cours de collecte pour une vari\u00e9t\u00e9 de langues.<\/p>\n<h4>Projet 2 \u2013 Outil d\u2019indexation pour la recherche par mot-cl\u00e9 dans le contenu<\/h4>\n<p>Le CRIM d\u00e9sire construire des syst\u00e8mes qui permettront de rechercher des mots ou des phrases particuliers dans les enregistrements audio dans certaines langues autochtones. Il ne s\u2019agira pas d\u2019une reconnaissance vocale compl\u00e8te : pour l\u2019instant, nos \u00e9quipes ne cr\u00e9eront pas de syst\u00e8mes capables de produire des transcriptions de haute qualit\u00e9 de tout ce qui a \u00e9t\u00e9 dit dans un enregistrement. Les syst\u00e8mes permettront plut\u00f4t la recherche par mot-cl\u00e9 audio, de sorte que les utilisateurs pourront faire des recherches rapides dans de longs enregistrements audio \u00e0 la recherche de mots ou de sujets particuliers. Pour atteindre cet objectif, il faut adapter les principales composantes de la reconnaissance vocale qui mod\u00e9lisent les mots, les phon\u00e8mes et les sons de la parole, et trouver leurs limites lorsqu\u2019elles sont appliqu\u00e9es aux langues autochtones.<\/p>\n<ul>\n<li>Nos experts ont constat\u00e9 que les repr\u00e9sentations verbales habituelles ne fonctionnent pas pour l\u2019inuktitut. En anglais, un vocabulaire de 20 000 mots est suffisamment vaste pour que seulement 5 % des mots d\u2019un nouveau texte ne soient pas inclus dans le vocabulaire. Par contre, notre collection de documents en inuktitut contient un vocabulaire de 1,3 million de mots distincts, et pourtant, dans tout nouveau texte en inuktitut, environ 60 % des mots n\u2019ont jamais \u00e9t\u00e9 vus auparavant, en raison de la structure linguistique agglutinante de l\u2019Inuktitut. Nos \u00e9quipes \u00e9laborent pr\u00e9sentement de nouvelles approches qui permettent de mod\u00e9liser le riche vocabulaire observ\u00e9 dans de nombreuses langues autochtones du Canada sans avoir recours \u00e0 un ensemble limit\u00e9 de mots.<\/li>\n<li>Nous avons \u00e9t\u00e9 en mesure de produire automatiquement des transcriptions phon\u00e9tiques en cri de l\u2019Est avec moins de 10 % d\u2019erreur, cr\u00e9ant ainsi un syst\u00e8me \u00e0 partir de z\u00e9ro avec seulement quatre heures de mat\u00e9riel pr\u00e9transcrit. Ces r\u00e9sultats sont assez pr\u00e9cis pour aider les linguistes dans leur course \u00e0 documenter certaines langues avant qu\u2019il n\u2019y ait plus de locuteurs.<\/li>\n<li>Nos experts ont montr\u00e9 qu\u2019un syst\u00e8me de reconnaissance vocale form\u00e9 sur une grande quantit\u00e9 d\u2019anglais peut trouver la position exacte des mots dans les enregistrements audio, m\u00eame pour les textes en inuktitut et en cri. Cela permet de cr\u00e9er des livres audio avec texte synchronis\u00e9 pour \u00eatre utilis\u00e9s comme mat\u00e9riel p\u00e9dagogique et applications d\u2019apprentissage linguistique.<\/li>\n<\/ul>\n<p>Jusqu\u2019\u00e0 pr\u00e9sent, notre travail s\u2019est concentr\u00e9 sur les donn\u00e9es en inuktitut et en cri. Le Centre Pirurvik fournit une aide pr\u00e9cieuse sur l\u2019aspect inuktitut de ce projet. Nous ciblons maintenant d\u2019autres langues, comme le Tsuut\u2019inai et le michif, pour explorer leurs propri\u00e9t\u00e9s sp\u00e9cifiques et nous assurer que nos outils sont applicables \u00e0 un large \u00e9ventail de langues autochtones.<\/p>\n<p>Un projet d\u2019envergure \u00e0 suivre de pr\u00e8s!<\/p>\n<p>Lire aussi :<br \/>\n<a href=\"https:\/\/lactualite.com\/techno\/les-technologies-au-service-des-langues-autochtones\/\" target=\"_blank\" rel=\"noopener noreferrer\">Les technologies au service des langues autochtones (L\u2019actualit\u00e9)<\/a><br \/>\n<a href=\"https:\/\/ici.radio-canada.ca\/espaces-autochtones\/1287816\/cnrc-projet-langues-autochtones-kuhn-boulianne-brinklow\" target=\"_blank\" rel=\"noopener noreferrer\">La revitalisation des langues autochtones, un travail de longue haleine (Radio-Canada)<\/a><br \/>\n<a href=\"https:\/\/ici.radio-canada.ca\/espaces-autochtones\/1140341\/nouvelles-technologies-crim-cnrc-langues-autochtones-cri-inuktitut-indexation-contenu-audio\" target=\"_blank\" rel=\"noopener noreferrer\">De nouvelles technologies d\u00e9velopp\u00e9es \u00e0 Montr\u00e9al pour pr\u00e9server les langues autochtones (Radio-Canada)<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>En collaboration avec le CNRC, le CRIM d\u00e9veloppe des outils d\u2019indexation audio et de reconnaissance du locuteur adapt\u00e9s aux langues autochtones.\u00a0 Contexte Dans le cadre d\u2019une collaboration \u00e0 long terme avec le\u00a0Conseil national de recherches du Canada (CNRC), le CRIM met \u00e0 contribution son expertise afin d\u2019adapter ses technologies de reconnaissance vocale aux langues autochtones. [&hellip;]<\/p>\n","protected":false},"author":18,"featured_media":2073,"menu_order":0,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":"","_links_to":"","_links_to_target":""},"projets":[],"tags":[144,146,145],"class_list":["post-2087","projet","type-projet","status-publish","format-standard","has-post-thumbnail","hentry","tags-culture-et-patrimoine","tags-reconnaissance-de-la-parole","tags-taln"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/projet\/2087","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/projet"}],"about":[{"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/types\/projet"}],"author":[{"embeddable":true,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/users\/18"}],"version-history":[{"count":3,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/projet\/2087\/revisions"}],"predecessor-version":[{"id":6632,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/projet\/2087\/revisions\/6632"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/media\/2073"}],"wp:attachment":[{"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/media?parent=2087"}],"wp:term":[{"taxonomy":"projets","embeddable":true,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/projets?post=2087"},{"taxonomy":"tags","embeddable":true,"href":"https:\/\/www.crim.ca\/fr\/wp-json\/wp\/v2\/tags?post=2087"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}