Indexation de contenu audio

En créant un index à partir du contenu parlé de très grandes bases de données audio, on en rend le contenu accessible à des moteurs de recherche semblables à Google.

Pour ce faire, il faut combiner la reconnaissance vocale avec une autre expertise en indexation et repérage qui permet de retrouver les termes recherchés malgré les erreurs de reconnaissance, les variantes de prononciation ou d'orthographe, et le manque de vocabulaire du système de reconnaissance.

Nous avons appliqué cette expertise dans quelques projets portant sur les archives cinématographiques de l'Office national du film (ONF) ou les témoignages recueillis dans la commission d'enquète Bastarache.

Technologies associées : moteur de reconnaissance, transducteurs à états finis.

Équipes

Réalisations

Nouvelles récentes

  • Recherche en cours : le CRIM rend disponibles de nouveaux outils technologiques adaptés aux langues autochtones
    05/12/2019

    Les outils créés dans le cadre du projet seront offerts aux chercheurs et aux communautés par l'entremise de deux plateformes ouvertes reconnues : VESTA et ELAN.

    +

Événement à venir

  • Séminaire R-D : L'art de la cyberrésilience: les leçons du secteur bancaire
    30/01/20 11h00
    CRIM (405, avenue Ogilvy, bureau 101, Montréal)
    Une conférence du Prof. Benoît Dupont, Titulaire de la Chaire de recherche du Canada en cybersécurité,Titulaire de la Chaire de recherche en prévention de la cybercriminalité, Directeur scientifique – Réseau intégré sur la cybersécurité (SERENE-RISC), Université de Montréal.
    +

Publications récentes

  • Deep learning speech recognition for low-resource languages

    +
  • Forage de données géospatiales, quelques applications

    +