Vidéodescription - Une technologie qui change le monde... un épisode à la fois !


Offrir une expérience culturelle numérique optimale à tous les citoyens

 

Résumé

Alors que les technologies occupent une place grandissante dans nos vies, il est crucial de développer des moyens pour que tous puissent avoir accès aux contenus numériques. L’accessibilité numérique constitue un des domaines d’expertise du CRIM depuis de nombreuses années.

C’est dans cette optique que le CRIM a développé un nouveau système de production de vidéodescription (VD) qui permet aux aveugles et malvoyants de mieux comprendre une œuvre audiovisuelle (film, série télé, etc.). Encore aujourd’hui, les vidéodescriptions sont la plupart du temps générées manuellement, et ce processus s’avère long et coûteux. L’outil développé par le CRIM depuis le début des années 2000, qui combine plusieurs méthodes d’analyse de contenu vidéo pour bâtir le texte des descriptions de manière presque entièrement automatisée, permet de réduire grandement le temps de production d’une vidéodescription. Aujourd’hui, la demande pour du contenu audiovisuel vidéodécrit ne cesse d’augmenter. En utilisant la technologie unique du CRIM, les producteurs pourront y répondre plus rapidement et plus efficacement, permettant par le fait même une diversification des contenus. Et ça, c’est à l’avantage de tous!

À travers son expertise en vidéodescription, le CRIM :
  • Répond aux besoins des producteurs de contenuaudiovisuel en proposant une alternative plus rapide et moins coûteuse pour la production de contenu accessible à tous
  • S’inscrit dans un mouvement d’innovation sociale en contribuant à l’accessibilité numérique des personnes présentant une déficience visuelle
  • Contribue à la recherchedans les domaines de pointes tels que l’analyse de contenu audio et vidéo et l’intelligence artificielle (IA)

Qu’est-ce que la vidéodescription ?

Il s’agit d’une bande audio qui décrit les actions d’un contenu audiovisuel (film, série télé…) afin de rendre ce contenu accessible aux personnes aveugles ou présentant une déficience visuelle.

Depuis ses débuts, la vidéodescription (VD) est générée manuellement : le texte est écrit par des vidéodescripteurs qui regardent et analysent le film. Des acteurs sont ensuite engagés pour enregistrer la voix une fois que le texte est terminé. Le processus est long et donc très coûteux. Trop peu de films sont donc disponibles avec la VD. En général, on estime qu’en utilisant la technique traditionnelle 100 % manuelle, une semaine de travail à temps plein permet de produire entre 90 et 120 minutes de vidéodescription, l’équivalent d’un long métrage standardi.

Principales contraintes de la vidéodescription traditionnelle

Plusieurs variables doivent être prises en compte, tant au niveau de la rédaction du texte que de l’enregistrement de la bande audio :

  • Les indications doivent être claires, simples, directes, énoncées de manière à ne pas distraire de la voix des personnages et à occuper le moins de temps possible, afin de ne pas surcharger la bande audio d’un flot constant de paroles.
  • Le texte doit préciser le lieu de l’action, et parfois le moment dans le temps (s’il s’agit d’un rêve ou d’un flashback, par exemple), décrire brièvement les actions principales et nommer le personnage qui les exécute.
  • De plus, il est souhaitable que le niveau de langue et la manière d’identifier les personnages soient constants tout au long de la description, et que le ton de voix du lecteur s’adapte à l’atmosphère de la scène ou du film (une comédie tonitruante ne sera pas décrite sur le même ton qu’un thriller haletant!). 

Tout cela en respectant la contrainte suprême : faire entrer toutes ces informations dans les silences de la bande-son originale, entre les effets sonores et les dialogues… tout un défi ! Le texte doit fréquemment être raccourci ou modifié, ce qui multiplie le temps de travail des vidéodescripteurs. Bref, une idée qui peut nous sembler assez simple requiert en fait un travail d’analyse d’une complexité remarquable !

La solution du CRIM : la vidéodescription assistée par ordinateur

L’idée d’automatiser le processus de génération des descriptions est étudiée depuis le début des années 2000. Plusieurs chercheurs ont classifié et organisé le type d’information que l’on retrouve le plus souvent dans les descriptions. C’est à partir de ces résultats que le CRIM démarre un projet visant à améliorer le système de vidéodescription existant.

Pour ce faire, l’équipe a ciblé 2 axes principaux :

  1. Accélérer et faciliter la production de vidéodescription en automatisant le processus au maximum
  2. Améliorer l’expérience utilisateur par la création d’une plateforme de visionnement adaptée et accessible,  dont les options et paramètres répondent aux besoins réels des usagers

Aspect 1 – Accélérer et faciliter la production de vidéodescriptions

Les origines de la vidéodescription au CRIM remontent au projet MADIS, réalisé en 2003-2004, qui visait à indexer du contenu vidéo pour pouvoir chercher dans une banque d’archives vidéo en utilisant des mots-clés précis, par exemple le nom de quelqu’un ou le lieu où se déroulait la séquence (lire l’article suivant pour plus d’information). Les algorithmes de détection perfectionnés durant MADIS ont été utilisés comme base pour la création du logiciel de production de vidéodescription du CRIM, le VDManager.

Ce logiciel facilite le travail des vidéodescripteurs en analysant le son et l’image du film et en détectant certains éléments-clés qui permettent de générer une première version « brouillon » de vidéodescription en utilisant les techniques de l’intelligence artificielle (IA). Ensuite, les techniciens n’ont qu’à peaufiner le tout et à corriger les erreurs. Le VDManager est le premier logiciel à viser la réduction du temps de production de VD et la standardisation du processus par l’usage de détecteurs automatiques de contenu audio-visuel, de synchronisation temporelle et de rendu par voix de synthèse. Une technologie innovante et simple d’utilisation !

Comment ça marche?

Les informations détectées par les algorithmes du VDManager s’affichent dans une colonne à côté de la fenêtre de visionnement du film. Le vidéodescripteur peut alors choisir lesquelles accepter, modifier ou supprimer. La description finale approuvée par le technicien est enregistrée par une voix de synthèse, ce qui réduit les coûts par rapport à un enregistrement avec des acteurs. Par ailleurs, la technologie du VDManager peut aussi être utilisée pour enregistrer des vidéodescriptions avec des voix humaines.

 « Déjà, en 2010, le logiciel permettait une réduction
allant de 30 à 50 % du temps nécessaire
pour produire une vidéodescription » 
[1] 

Fonctions principales du logiciel VDManager

Détection des changements de scène :

Le logiciel détecte un changement d’acteur ou de lieu et peut en déduire qu’une nouvelle scène commence.

Détection des lieux :

 

Grâce à des détails dans l’image que les techniciens ont associés dans le logiciel avec les principaux lieux de l’action du film, VDManager peut détecter dans quel lieu se passe la scène en cours et inclure cette information dans la VD.

Détection des personnages :

Grâce à des photos des acteurs, VDManager peut détecter quel personnage est en action dans chaque plan. Un peu comme Facebook qui suggère des noms d’amis par détection faciale automatique lorsque nous voulons identifier quelqu’un dans une photo !

Détection du texte à l’écran :

 

Il arrive souvent que du texte soit affiché à l’écran durant un film, soit pour offrir des informations supplémentaires sur l’action ou pour sous-titrer une scène se déroulant dans une langue différente. VDManager détecte la présence de texte à l’écran et intègre ce texte à la VD.

Détection des moments opportuns
pour l’intégration de la VD :

Le logiciel détecte la différence entre la parole et les autres sons du film (musique, effets sonores), afin d’insérer la VD entre les répliques des personnages.

Bien sûr, aucune de ces fonctions de détection n’est efficace à 100 %, surtout dans l’analyse d’une œuvre audiovisuelle aussi complexe qu’un film. Mais l’espoir du CRIM était que la correction manuelle, par les vidéodescripteurs, des erreurs du logiciel leur demanderait beaucoup moins de temps que de générer et de tester tout le texte à partir de zéro. Cette hypothèse se vérifia dès la première version du VDManager, lancée en 2008-09. Déjà, en 2010, le logiciel permettait une réduction du temps nécessaire pour produire une vidéodescription pouvant aller de 30 à 50 % [i].

­

Aspect 2 – Améliorer l’expérience utilisateur

Étude sur les besoins du public-cible

Avant de lancer officiellement le logiciel de lecture de vidéodescription, au début de ses recherches en 2005, le CRIM voulait s’assurer que sa conception réponde aux besoins réels des utilisateurs aveugles ou malvoyants.

L’équipe chapeautée par Claude Chapdelaine, conseillère senior au CRIM, a réalisé une étude en collaboration avec un groupe de personnes aveugles ou présentant une déficience visuelle. Cette étude démontre qu’il est essentiel d’inclure une fonction permettant d’alterner en tout temps entre une description brève (VD standard) et une plus détaillée (appelée VD augmentée) afin que chacun puisse choisir le niveau de support auditif dont il a besoin selon l’importance de son handicap.  La VD standard s’intègre dans les silences entre les répliques de la bande sonore originale du film, tandis que la VD augmentée met le film sur pause pour quelques instants afin de fournir plus d’information sur le contenu visuel. Tout cela de façon automatique grâce au DVDPlayer !

Les participants mentionnent aussi que parfois, au milieu d’une scène, ils sont confus quant au personnage, au lieu où à l’action en cours, soit parce qu’ils n’ont pas bien entendu la VD ou simplement parce que leur cerveau commence à être saturé d’information auditive. Le fait de ne pas obtenir de réponse rapide à leurs questions cause une fatigue cognitive lorsqu’ils tentent de trouver la réponse par eux-mêmes tout en poursuivant l’écoute du film.

Lancement du logiciel de visionnement DVDPlayer

En 2010, le CRIM lance DVDPlayer, un logiciel spécialisé et accessible qui permet aux usagers d’écouter un film avec la vidéodescription correspondante. Lorsqu’on place un DVD dans le lecteur de l’ordinateur, DVDPlayer détecte de quel film ou série télé il s’agit, télécharge les vidéos descriptions correspondantes et les synchronise avec la bande sonore originale.  Le lecteur de vidéodescription du CRIM a même été breveté : un pas de plus vers l’accessibilité numérique universelle !

Le logiciel intègre les options mentionnées par le groupe de recherche : le choix entre deux niveaux de description (VD standard ou VD augmentée), ainsi qu’une fonction de rappel qui permet en tout temps de connaître les personnages d’une scène, le lieu et les actions principales en cours.  Cela évite une personne aveugle de demander à une personne voyante de mettre en pause le film pour décrire plus en détails ce qui se passe. Le lecteur inclut également des fonctionnalités permettant de naviguer dans le menu du DVD en utilisant uniquement les touches du clavier et une voix de synthèse.

De plus, des options supplémentaires permettent d’avoir accès à de l’information complémentaire: les auditeurs peuvent écouter un synopsis audio et avoir accès à une description des personnages avec un extrait de la voix de chacun. 

Le logiciel DVDPlayer est accessible en téléchargement gratuit. Il permet de lire tout DVD, même ceux qui ne possèdent pas de VD intégrée. La piste de VD n’a qu’à être téléchargée par l’auditeur et elle se synchronisera automatiquement sur la bande originale du film.  Aucun autre lecteur courant (Quicktime, RealPlayer, WinDVD, etc.) ne peut rendre une VD sans avoir une piste audio de VD gravée directement sur le DVD. Une étude parue en 2012 révèle que plus de 80 % des utilisateurs qui se sont servis du DVDPlayer ont une expérience positive [ii], ce qui a encouragé l’équipe à poursuivre son travail dans la même voie.

Le saviez-vous ?

Pour des questions de droit d’auteur, les créateurs de vidéodescription ne peuvent modifier la bande originale du film pour y ajouter de la VD sans l’autorisation du producteur. C’est pourquoi un logiciel comme DVDPlayer est novateur: il permet de faire jouer le film avec sa bande audio originale sans la modifier tout en synchronisant parfaitement la VD par-dessus. Cela permet de produire des VD plus rapidement, car comme les créateurs de vidéodescriptions ne modifient pas la bande sonore, ils n’ont pas à conclure d’accord avec les producteurs du film.

Complément d’information :
  • Le CRIM s’engage pour l’innovation sociale en collaborant à de nombreux projets de recherche qui traitent de grands enjeux de société, particulièrement dans les secteurs de l’accessibilité numérique et de la réadaptation visuelle.
  • Le réseau E-Inclusion, une initiative du CRIM, visait à développer divers outils de traitement audiovisuel afin d’améliorer l’expérience multimédia des personnes présentant une déficience sensorielle auditive ou visuelle.
  • La recherche en vidéodescription du CRIM découle du projet MADIS qui date du début des années 2000. En effet, plusieurs plusieurs des algorithmes de détection et d’indexation de contenu vidéo créés pour MADIS ont ensuite été utilisés pour la première version du VDManager. Lisez toute l’histoire !

De nombreux débouchés pour la technologie du CRIM !

Aujourd’hui, la technologie de vidéodescription automatisée développée par le CRIM continue d’être peaufinée au fil des commentaires des usagers. Cette technologie polyvalente offre une myriade de possibilités qui ne demandent qu’à être explorées, afin de continuer à enrichir la vie culturelle de tous les citoyens.

Saviez-vous que…
  • La technologie de vidéodescription du CRIM peut être utilisée pour enregistrer une VD en voix de synthèse, mais elle peut aussi servir à l’enregistrement de descriptions par des voix humaines.
  • Le logiciel VDManager ne se limite pas à la production de films adaptés! Il est aussi utilisé pour aider le travail des acteurs durant la post-synchronisation, ce processus où les répliques d’un film sont ré-enregistrées en studio pour s’assurer qu’elles seront bien entendues à l’écran. La compagnie Indekso se sert de la technologie du CRIM afin de fournir aux acteurs un texte défilant qui comprend la longueur de chaque syllabe et les pauses, afin qu’ils puissent redire le texte exactement de la même façon. Un peu comme une machine de karaoké, en plus sophistiqué!
  • Le VDManager utilise plusieurs techniques propres à l’intelligence artificielle (IA) pour produire les descriptions. L’expertise de Montréal et du CRIM dans ce domaine ne date pas d’hier !
  • La BAnQ possède maintenant une collection d’une trentaine de films québécois et étrangers produits grâce au VDManager et accessibles à tous les Québécois. Ces films sont disponibles dès maintenant pour emprunt, via le catalogue du Service Québécois du livre adapté (SQLA) disponible à la BAnQ (banq.qc.ca/sqla).  

Partenaires et collaborateurs

  • Ministère de l’Économie, de la Science et de l’Innovation (MESI)
  • Office des personnes handicapées du Québec (OPHQ)
  • Institut Nazareth et Louis-Braille (INLB) – maintenant membre du CISSS de la Montérégie-Centre
  • Regroupement des aveugles et amblyopes du Québec (RAAQ)
  • Institut National Canadien pour les Aveugles (INCA)
  • Confédération des organismes de personnes handicapées du Québec (COPHAN)
  • Service québécois du livre adapté
  • Bibliothèque et Archives Nationales du Québec
  • Anne Jarry, de l'École d'optométrie de l'Université de Montréal

[i] Gagnon, L., Chapdelaine, C., Byrns, D., Foucher, S., Héritier, M. and Gupta, V. "Computer-Vision-Assisted System for Videodescription Scripting" In 3rd workshop Computer Vision Application for Visually-Impaired (CVAVI 10) - A Satellite Workshop of IEEE CVPR 2010. San Francisco, CA, USA, June 13-18, 2010.

[ii] Chapdelaine, C. "In-Situ Study of Blind Individuals Listening to Audio-Visual Contents" in 12th International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS'10), pp. 59-66.

Équipes

Nouvelles récentes

  • Le CRIM, un acteur clé dans l'écosystème de l'IA du Grand Montréal
    07/12/2017

    Montréal International présente le portrait de l'intelligence artificielle dans le Grand Montréal.

    +

Événement à venir

  • OGC Testbed 13 Demonstration Event
    13/12/17 8h30
    Reston, Virginie
    Le CRIM sera présent pour cet événement qui se déroule les 12 et 13 décembre 2017 à Reston en Virginie.
    +
  • LLNL Computation RT @Livermore_Comp: 7th Annual ESGF Conference participants, including several familiar faces from @Livermore_Comp Congras on their recent…
  • LLNL Computation RT @Livermore_Comp: The annual #ESGF conference highlights important work from LLNL’s international collaborators, like the Computer Resear…

Publications récentes

  • Projet patrimoine TARV

    +
  • PeopleBot

    +