|
|

|
|
Projets
Détection de mots-clés dans les conversations des courtiers sur le parquet des transactions énergétiques
Ce projet avait pour but de développer un système d'analyse de la parole qui traite les
enregistrements des conversations des courtiers négociant sur le parquet des transactions
énergétiques. Ce système permet d'identifier certains mots-clés, non-spécifiés à l'avance, parmi
une grande quantité d'enregistrements, représentant des transactions de plus d'une centaine de
courtiers pendant plusieurs mois. Le design d'un tel système présente de multiples défis reliés à
la nature non-structurée des conversations entre courtiers, au taux de détection requis, et à la
quantité de données à traiter.
Le projet est un partenariat entre
l'équipe Reconnaissance de la
parole du CRIM,
Univoc et
Hydro-Québec Production. Il a bénéficié du
soutien financier du programme PRECARN-Alliance. Cette technologie est maintenant commercialisée
par Univoc en tant que produit ou service de
forage audio, dans les domaines des enquêtes
/ vérification de conformité, ainsi qu'en gestion de la qualité des transactions. |
Système de détection des émotions
Sous-titrage en direct et à distance (SST)
L'équipe Reconnaissance de la parole du CRIM a élaboré depuis 2002 une technologie de
sous-titrage, destinée notamment aux personnes sourdes et malentendantes.
Le premier projet, commencé en 2002, s’intitulait : Sous-titrage en direct de bulletins de
nouvelles et d'émissions d'intérêt public (STDirect). Il visait la faisabilité du sous-titrage en
direct de bulletins de nouvelles et d'émissions d'intérêt public en français québécois, à l'aide
d'un système de reconnaissance vocale installé chez le télédiffuseur. Il a permis le
développement du système STDirect, en ondes depuis 2004 sur le
réseau TVA.
Par la suite, une série de projets, Sous-titrage en direct et à distance (SST), ont eu lieu dans
des conditions de production réelles, en satisfaisant à toutes les exigences de qualité et de
fiabilité d'utilisateurs réels.
Le système STDirect a obtenu plusieurs prix :
- Prix IWAY 2004, dans la catégorie Technologies destinées aux personnes handicapées, décerné par
CANARIE à Pierre Dumouchel, vice-président scientifique du CRIM et chercheur en reconnaissance de
la parole.
- Prix OCTAS Partenariat stratégique OSBL 2005, décerné par la Fédération de l'informatique du
Québec au CRIM, au Groupe TVA et au RQST Conseil-expert.
- Prix Innovation 2005, dans la catégorie Partenariat décerné par l'ADRIQ au CRIM, au Groupe TVA
et au RQST Conseil-expert.
- Prix 2005 CATA Alliance Innovation.
Le CRIM commercialise depuis 2008 ses
services de sous-titrage. |
Partenaire du Réseau de recherche E-Inclusion
L'objectif du
Réseau de recherche
E-Inclusion est de développer des outils de traitement de contenu audiovisuels et des méthodes
de création de contenu spécifiques aux sens pour les producteurs multimédia. Ce projet est financé
en partie par
Patrimoine
canadien.
Les projets entrepris par ce réseau visent à améliorer la richesse de l'expérience multimédia,
pour les personnes ayant une déficience sensorielle auditive et visuelle. En d’autres termes, ils
devraient rendre les produits culturels audiovisuels accessibles aux personnes vivant avec une
déficience visuelle ou auditive.
Dans le cadre du Réseau de recherche E-Inclusion, l'équipe Reconnaissance de la parole du CRIM
contribue au
développement d'outils de sous-titrage en direct et
en différé pour les personnes sourdes et malentendantes utilisatrices de contenu culturel
canadien. |
Partenaire du projet C³GRID
Closed Captioning Computing GRID
Le projet
C³GRID visait le développement
d'une grille de calcul pour l’apprentissage distribué des modèles acoustiques, visuels et de
langage en reconnaissance de la parole.
C³GRID était financé en partie par le programme RAMI de
CANARIE. |
Initiateur du projet RAP
Reconnaissance automatique de la parole, transcription automatique et Accessibilité universelle des débats du Parlement et des témoignages présentés aux comités
Le projet RAP avait l'objectif de permettre aux personnes sourdes et malentendantes
d'accéder à l'information, tout en créant un accès multimodal universel aux débats en direct du
Parlement canadien.
|
Synchronisation texte/dialogue pour la post-synchronisation et le doublage
Ce projet visait la création et la mise au point d'une technologie d'alignement vocal et
l'intégration de celle-ci à un système d'aide à la post-synchronisation et au doublage pour Ryshco
media. Cette firme est spécialisée en doublage pour le cinéma et la télévision.
|
Partenaire du projet MADIS
MPEG-7 Audio-visual Document Indexation System
Le projet
MADIS visait le développement d'un
banc d'essai pour l'indexation et la recherche par contenu de films dans le cadre du standard
MPEG-7.
Les partenaires du projet étaient les équipes Vision et imagerie et Reconnaissance de la parole
du CRIM, ainsi que
l'Office national du
film du Canada (ONF). MADIS a été financé en partie par le programme E-content de
CANARIE.
|
Prototype pour le sous-titrage automatique de bulletins de nouvelles et d'émissions d'intérêt public
Le projet visait à adapter la technologie de reconnaissance de la parole du CRIM au domaine
spécifique du sous-titrage de bulletins de nouvelles et d'émissions d'intérêt public en français
québécois, pour le
Groupe TVA.
Dans ce mandat, le RQST Conseil-expert a exercé un rôle de conseiller auprès du Groupe TVA, en
soumettant des suggestions à ce télédiffuseur. Ces conseils portaient notamment sur
l'évaluation des sous-titres générés par le nouveau système, ainsi que sur des tests
d'utilisabilité auprès de la population sourde et malentendante.
|
Adaptation bayesienne pour la reconnaissance de la parole
Cette recherche exploratoire était orientée vers le développement de nouvelles méthodes de
modélisation statistique de la parole.
Pour un ensemble donné de locuteurs, quelle est la distribution jointe de la parole ? À partir
de la distribution jointe, on peut facilement dériver la distribution marginale pour chacun des
locuteurs dans l'ensemble donné. Cette distribution peut servir à construire un modèle markovien de
la parole du locuteur de la manière habituelle. La distribution marginale pour un locuteur donné
est dérivée à partir des données de tous les locuteurs dans l'ensemble. Ainsi, ce modèle markovien
est différent de celui qui découle de l'apprentissage dépendant du locuteur. Une solution adéquate
à ce problème a donc donné lieu à de nouvelles méthodes d'adaptation au locuteur. Celles-ci peuvent
s'appliquer soit à la reconnaissance de la parole soit à l'identification automatique des
locuteurs. |
|
|
|
|