Technologies

 
 

Reconnaissance vocale Retour vers le haut

La reconnaissance vocale désigne les technologies qui servent à convertir la voix humaine en texte. Toute application vocale comporte trois éléments essentiels :

  1. les modèles de la langue et de la voix, qui constituent les connaissances du système;
  2. les techniques d’adaptation, qui permettent de faire évoluer les modèles selon les situations;
  3. le moteur de reconnaissance, qui utilise les modèles pour transcrire la voix en texte.

Notre moteur de reconnaissance

  • technologie entièrement développée au CRIM
  • basé sur les transducteurs à états finis pondérés
  • interface client / serveur ou librairie de fonctions
  • contextes pré-chargés permettant le passage instantané d’un contexte à l’autre (langue, domaine, utilisateur, etc.)

La modélisation

  • développée en fonction du français québécois, mais le français de France et l'anglais américain sont aussi supportés
  • disponible pour la parole lue ou spontanée, avec microphone rapproché ou parole téléphonique.

Son adaptation

  • découverte quotidienne des mots nouveaux sur le Web, dans les fils de presse ou les données corporatives
  • adaptation automatique du modèle de langue avec de nouveaux textes récupérés sur le Web, fils de presse ou données corporatives
  • adaptation automatique des modèles de voix avec les enregistrements des utilisateurs

Exemples d'applications

La reconnaissance vocale du CRIM permet de réaliser une vaste gamme d’applications qui ont atteint le stade de la commercialisation. Le moteur est disponible sous licence. Pour de nouvelles applications on parle de coût du développement puis redevances, avec exclusivité.

La reconnaissance à grand vocabulaire, en continu et en temps réel
STDirect pour le sous-titrage en direct des émissions de télévision 
utilisé par les réseaux GTVA, V, RDS, CPAC, TVO commercialisé par SOVO Technologies

 
 

La reconnaissance de mots-clés dans de grandes quantités d’audio 
KWS pour le forage audio dans les transactions de marché 
utilisé par Hydro-Québec, l’Autorité des marchés financiers et l’IIROQ, commercialisé par Univoc

 
 

L’alignement précis du texte ou des phonèmes 
DubStudio pour la post-synchronisation des dialogues de films 
utilisé par les studios Technicolor et La Majeure, commercialisé par DubSynchro

 

Le moteur de reconnaissance vocale du CRIM a reçu plusieurs distinctions aux cours des ans :

  • STDirect : Prix IWAY 2004 de CANARIE, Prix OCTAS 2005 de la FIQ, Prix Innovation 2005 de l'ADRIQ, Prix 2005 CATA Alliance Innovation
  • DubStudio : Prix Octas 2003 de la FIQ

Le CRIM a l’entière propriété intellectuelle du moteur de reconnaissance et des technologies distribuées dans ses diverses applications.


 

Reconnaissance du locuteur Retour vers le haut

La reconnaissance du locuteur consiste à vérifier l’identité d’un locuteur à l’aide des caractéristiques de sa voix. Le CRIM possède l’une des technologies les plus performantes dans ce domaine, tel qu’évalué par les campagnes internationales d’évaluation du National Institue of Standards and Technology (NIST). 

  • Distinguer vérification (e.g. empreintes digitales) vs identitifcation (e.g. portrait-robot).
  •  Le CRIM se spécialise dans la vérification.

Les particularités 

  • L’approche Joint Factor Analysis a été créée au CRIM et est devenue l’approche dominante dans le domaine.
  • Indépendante du texte, de la langue, du canal.
  • Diarisation.
  • Performances mondiales en précision et rappel.
  • Particulièrement efficace dans les situations où on doit vérifier des milliers d'échantillons.

Sas applications

Vérification et authentification :

  • Pour sécuriser l’accès (par exemple à un compte bancaire par le téléphone).
  • Pour la surveillance et le monitoring (vérification d’identité dans les centres d’appels, écoute électronique).
  • Pour confirmer l’identité en conjonction avec d’autres techniques de biométrie.

Identification :

  • Identifier les locuteurs présents dans un document audio-visuel.

Distinctions

Suite à ses succès aux évaluations du NIST en 2006, 2007 et 2008, l’approche Joint Factor Analysis du CRIM est devenue l’approche dominante dans le domaine.

 
boite_recherche_g

Recherche

boite_recherche_d

CONTACT

Gilles Boulianne

Directeur de l'équipe Reconnaissance de la parole et conseiller senior en recherche et développement

514 840-1235, poste 5282

Gilles Boulianne

Voir aussi