Grille de modélisation pour le sous-titrage

Calcul et découverte de modèles dans C3GRID

L'utilisation, la valeur et la réception favorable du système de sous-titrage assisté par la reconnaissance automatique de la parole sont dépendants de sa précision. Cette précision s'obtient par la création, la mise à jour continuelle et l'adaptation des dictionnaires, des modèles accoustiques et des modèles de langue.

Les modèles statistiques utilisés pour la reconnaissance de la parole et la reconnaissance audio-visuelle requièrent de grandes quantités de données qui doivent être mises à jour quotidiennement, idéalement à intervalles de quelles heures. La rareté de données pertinentes et les contraintes de propriété intellectuelle ont mené à l'approche utilisée habituellement pour la modélisation : amasser autant de données que possible pour un site, en extraire les statistiques et les combiner avec d'autres statistiques calculées sur un ensemble de données plus grand, mais plus général. L'ensemble plus général des données est normalement mis au point conjointement par plusieurs laboratoires pendant de nombreuses années, puis rendu publique.

Le problème de cette appproche est que l'ensemble général a plusieurs années de retard sur les données que l'on tente de modéliser. Le fardeau de la modélisation repose alors en grande partie sur une petite quantité de données spécifiques à jour. La mise à jour continuelle du modèle spécifique requiert des interventions manuelles coûteuses (liens Web, normalisation des textes, vérification du vocabulaire, modélisation des textes pour l'entraînement des modèles accoustiques, etc.). Malgré cela, tous les efforts d'entretien sont inutilisables pour la mise au point d'autres modèles ou l'amélioration des données générales, puisque la propriété intellectuelle restreint le partage des données brutes.

La modélisation à l'aide d'une grille informatique résoud ces problèmes en gardant toutes les données spécifiques du site dans le site lui-même, en fournissant le moyen de partager les statistiques entre les sites, ce qui a pour effet de permettre à chaque site de construire un modèle aussi puissant que s'il était construit en combinant les données de tous les autres sites.

La figure ci-dessous décrit la création des modèles de langue pour la reconnaissance de la parole dans des contextes de reconnaissance, tels que débats parlementaires ou nouvelles télévisées avec contenus spécifiques, comme les nouvelles nationales, régionales ou les bulletins météo.