À propos du CRIM

Indexation de contenu audio

En créant un index à partir du contenu parlé de très grandes bases de données audio, on en rend le contenu accessible à des moteurs de recherche semblables à Google.

Pour ce faire, il faut combiner la reconnaissance vocale avec une autre expertise en indexation et repérage qui permet de retrouver les termes recherchés malgré les erreurs de reconnaissance, les variantes de prononciation ou d'orthographe, et le manque de vocabulaire du système de reconnaissance.

Nous avons appliqué cette expertise dans quelques projets portant sur les archives cinématographiques de l'Office national du film (ONF) ou les témoignages recueillis dans la commission d'enquète Bastarache.

Technologies associées : moteur de reconnaissance, transducteurs à états finis.

Équipes

Réalisations

Événement à venir

  • Transformation numérique - Secteur public - Événement Les Affaires
    29/01/20 7h00
    DoubleTree par Hilton, Montréal
    Le CRIM fier partenaire de la 1ère édition sur la Transformation numérique - Secteur public organisée par les Événement Les Affaires, qui se tiendra les 29 janvier 2020 au DoubleTree par Hilton, Montréal.
    +
  • NRC Canada RT @NRC_CNRC: Most audio archives of Indigenous languages have not been indexed for keyword search. We are working with @CRIM_ca @Pirurvik…
  • CNRC RT @CNRC_NRC: Avec @CRIM_ca, @Pirurvik et @CBCNorth, nous cherchons à faciliter la recherche ???? par mot-clé dans les archives audio en #inuk…

Publications récentes

  • Deep learning speech recognition for low-resource languages

    +
  • Forage de données géospatiales, quelques applications

    +