Projets

Détection de mots-clés dans les conversations des courtiers sur le parquet des transactions énergétiques

Ce projet avait pour but de développer un système d'analyse de la parole qui traite les enregistrements des conversations des courtiers négociant sur le parquet des transactions énergétiques. Ce système permet d'identifier certains mots-clés, non-spécifiés à l'avance, parmi une grande quantité d'enregistrements, représentant des transactions de plus d'une centaine de courtiers pendant plusieurs mois. Le design d'un tel système présente de multiples défis reliés à la nature non-structurée des conversations entre courtiers, au taux de détection requis, et à la quantité de données à traiter.

Le projet est un partenariat entre l'équipe Reconnaissance de la parole du CRIM, Univoc et Hydro-Québec Production. Il a bénéficié du soutien financier du programme PRECARN-Alliance. Cette technologie est maintenant commercialisée par Univoc en tant que produit ou service de forage audio, dans les domaines des enquêtes / vérification de conformité, ainsi qu'en gestion de la qualité des transactions.

Système de détection des émotions

Le projet Détection des émotions à partir de dialogues personne-machine avait pour but de faciliter l’évaluation du service téléphonique à la clientèle de Bell. Il s’agit d’un système de détection des états émotionnels négatifs apparaissant lors d’un dialogue entre les clients et l’agent virtuel de Bell. Deux systèmes de détection ont été développés, l’un portant sur l’insatisfaction des clients et l’autre, sur les émotions négatives qu’ils peuvent exprimer. L’équipe Reconnaissance de la parole du CRIM a ici collaboré avec les Laboratoires universitaires de Bell (LUBE), l’ÉTS (Département de génie logiciel et des TI) et le CRSNG.

Sous-titrage en direct et à distance (SST)

L'équipe Reconnaissance de la parole du CRIM a élaboré depuis 2002 une technologie de sous-titrage, destinée notamment aux personnes sourdes et malentendantes.

Le premier projet, commencé en 2002, s’intitulait : Sous-titrage en direct de bulletins de nouvelles et d'émissions d'intérêt public (STDirect). Il visait la faisabilité du sous-titrage en direct de bulletins de nouvelles et d'émissions d'intérêt public en français québécois, à l'aide d'un système de reconnaissance vocale installé chez le télédiffuseur. Il a permis le développement du système STDirect, en ondes depuis 2004 sur le réseau TVA.

Par la suite, une série de projets, Sous-titrage en direct et à distance (SST), ont eu lieu dans des conditions de production réelles, en satisfaisant à toutes les exigences de qualité et de fiabilité d'utilisateurs réels.

Le système STDirect a obtenu plusieurs prix :

  • Prix IWAY 2004, dans la catégorie Technologies destinées aux personnes handicapées, décerné par CANARIE à Pierre Dumouchel, vice-président scientifique du CRIM et chercheur en reconnaissance de la parole.
  • Prix OCTAS Partenariat stratégique OSBL 2005, décerné par la Fédération de l'informatique du Québec au CRIM, au Groupe TVA et au RQST Conseil-expert. 
  • Prix Innovation 2005, dans la catégorie Partenariat décerné par l'ADRIQ au CRIM, au Groupe TVA et au RQST Conseil-expert. 
  • Prix 2005 CATA Alliance Innovation.

Le CRIM commercialise depuis 2008 ses services de sous-titrage.

Partenaire du Réseau de recherche E-Inclusion

L'objectif du Réseau de recherche E-Inclusion est de développer des outils de traitement de contenu audiovisuels et des méthodes de création de contenu spécifiques aux sens pour les producteurs multimédia. Ce projet est financé en partie par Patrimoine canadien.

Les projets entrepris par ce réseau visent à améliorer la richesse de l'expérience multimédia, pour les personnes ayant une déficience sensorielle auditive et visuelle. En d’autres termes, ils devraient rendre les produits culturels audiovisuels accessibles aux personnes vivant avec une déficience visuelle ou auditive.

Dans le cadre du Réseau de recherche E-Inclusion, l'équipe Reconnaissance de la parole du CRIM contribue au développement d'outils de sous-titrage en direct et en différé pour les personnes sourdes et malentendantes utilisatrices de contenu culturel canadien.

Partenaire du projet C³GRID

Closed Captioning Computing GRID

Le projet C³GRID visait le développement d'une grille de calcul pour l’apprentissage distribué des modèles acoustiques, visuels et de langage en reconnaissance de la parole.

C³GRID était financé en partie par le programme RAMI de CANARIE.

Initiateur du projet RAP

Reconnaissance automatique de la parole, transcription automatique et Accessibilité universelle des débats du Parlement et des témoignages présentés aux comités

Le projet RAP avait l'objectif de permettre aux personnes sourdes et malentendantes d'accéder à l'information, tout en créant un accès multimodal universel aux débats en direct du Parlement canadien.

Synchronisation texte/dialogue pour la post-synchronisation et le doublage

Ce projet visait la création et la mise au point d'une technologie d'alignement vocal et l'intégration de celle-ci à un système d'aide à la post-synchronisation et au doublage pour Ryshco media. Cette firme est spécialisée en doublage pour le cinéma et la télévision.

Partenaire du projet MADIS

MPEG-7 Audio-visual Document Indexation System

Le projet MADIS visait le développement d'un banc d'essai pour l'indexation et la recherche par contenu de films dans le cadre du standard MPEG-7.

Les partenaires du projet étaient les équipes Vision et imagerie et Reconnaissance de la parole du CRIM, ainsi que l'Office national du film du Canada (ONF). MADIS a été financé en partie par le programme E-content de CANARIE.

Prototype pour le sous-titrage automatique de bulletins de nouvelles et d'émissions d'intérêt public

Le projet visait à adapter la technologie de reconnaissance de la parole du CRIM au domaine spécifique du sous-titrage de bulletins de nouvelles et d'émissions d'intérêt public en français québécois, pour le Groupe TVA.

Dans ce mandat, le RQST Conseil-expert a exercé un rôle de conseiller auprès du Groupe TVA, en soumettant des suggestions à ce télédiffuseur. Ces conseils portaient notamment sur l'évaluation des sous-titres générés par le nouveau système, ainsi que sur des tests d'utilisabilité auprès de la population sourde et malentendante.

Adaptation bayesienne pour la reconnaissance de la parole

Cette recherche exploratoire était orientée vers le développement de nouvelles méthodes de modélisation statistique de la parole.

Pour un ensemble donné de locuteurs, quelle est la distribution jointe de la parole ? À partir de la distribution jointe, on peut facilement dériver la distribution marginale pour chacun des locuteurs dans l'ensemble donné. Cette distribution peut servir à construire un modèle markovien de la parole du locuteur de la manière habituelle. La distribution marginale pour un locuteur donné est dérivée à partir des données de tous les locuteurs dans l'ensemble. Ainsi, ce modèle markovien est différent de celui qui découle de l'apprentissage dépendant du locuteur. Une solution adéquate à ce problème a donc donné lieu à de nouvelles méthodes d'adaptation au locuteur. Celles-ci peuvent s'appliquer soit à la reconnaissance de la parole soit à l'identification automatique des locuteurs.

 
boite_recherche_g

Recherche

boite_recherche_d

CONTACT

Gilles Boulianne

Directeur de l'équipe Reconnaissance de la parole et conseiller senior en recherche et développement

514 840-1235, poste 5282

Gilles Boulianne

Voir aussi