La biométrie vocale, c’est un domaine technologique dont l’objectif est l’identification d’un individu par sa voix. On en voit déjà les traces dans plusieurs systèmes avec lesquels nous interagissons quotidiennement (Siri, OK Google et autres Alexa!). Bien sûr, l’effervescence autour des possibilités de cette nouvelle technologie vient avec son lot de mythes et de fausses croyances. Cet article tentera donc de donner l’heure juste sur l’état de l’art actuel en biométrie vocale en se basant sur la conférence donnée par le chercheur Gilles Boulianne du CRIM au Desjardins Lab le 1er mars 2018.
Bon.
Premièrement, il faut le dire…
La biométrie vocale… ce n’est pas vraiment de la biométrie.
Le mot biométrie désigne l’analyse des caractéristiques physiques strictement propres à une personne. Il s’agit donc de l’utilisation des caractéristiques uniques et mesurables afin d’identifier une personne avec un haut taux de fiabilité. Les exemples de biométrie sont multiples : empreintes digitales, iris, etc.
Par ailleurs, la voix humaine n’est pas une mesure physique précisément mesurable. Elle varie selon le comportement du locuteur, son état de santé ou émotif, son âge, etc. Contrairement à nos empreintes digitales, la voix varie dramatiquement selon qu’on vient de sortir du lit ou qu’on livre la performance d’une vie au karaoké !
Malgré sa relative imprécision, la biométrie vocale risque tout de même de devenir de plus en plus répandue, car elle comporte de nombreux avantages : d’abord, nul besoin d’équipement spécialisé ni de contact physique intrusif. De plus, la voix est l’outil naturel de l’humain pour communiquer. L’identification avec la voix s’intègre donc beaucoup plus organiquement dans nos rituels quotidiens, comme le prouvent les modules déjà utilisés par certains téléphones intelligents.
Si j’ai le rhume, est-ce que le système va me reconnaître ?
La grande variabilité de la voix selon les circonstances est en effet un problème majeur pour les chercheurs, mais ils y travaillent depuis des décennies et les résultats s’améliorent constamment. On parvient maintenant à identifier une voix beaucoup mieux qu’avant, et ce, malgré la congestion nasale ou le bruit ambiant.
Pour les rendre plus efficaces, les systèmes de biométrie vocale ne sont pas entraînés uniquement avec les voix des quelques utilisateurs qui s’en servent pour s’identifier. Les systèmes ont en banque un modèle entraîné sur des dizaines de milliers de données (d’extraits de voix) de locuteurs provenant de plusieurs banques de données. Ce processus aide le système à « apprendre » comment la voix humaine peut varier chez un individu selon les circonstances, ce qui l’aide à te reconnaître malgré ton chat dans la gorge !
Est-ce vraiment sécuritaire ? Quelqu’un peut-il “hacker” ma voix ?
Oui et non. Certains types de fraudes sont faciles à détecter et éviter, mais d’autres sont plus difficiles à prévenir, du moins dans les systèmes actuels.
Attaques par enregistrement
Dans des systèmes où chaque utilisateur a un mot de passe fixe et que c’est seulement la voix qui sert d’identifiant, il serait assez facile d’enregistrer ma voix et de la faire jouer au téléphone pour accéder à mon compte.
Pour parer ces attaques, les systèmes les plus perfectionnés utilisent des mots de passe variables, par exemple une série de chiffres. Lorsqu’on veut se connecter, le système nous demande de prononcer 4–5 chiffres qu’il nous donne, dans un ordre différent chaque fois. Nous enregistrer lorsqu’on prononce notre mot de passe devient alors parfaitement inutile !
Quelqu’un peut-il réussir à imiter ma voix ?
Si un imitateur ou un acteur (humain) essaie de se faire passer pour toi en modifiant sa voix, ça ne marchera pas. Les systèmes de biométrie vocale utilisent de nombreux facteurs très pointus et variés pour identifier une voix, et un imitateur humain — même très talentueux! — n’arrivera presque jamais à les déjouer. Donc même si Véronic DiCaire est très motivée à vous frauder, vous n’avez rien à craindre!
Est-ce qu’on peut recréer la voix de quelqu’un d’autre par ordinateur ?
La réponse est oui. En fait, si on possède 20 minutes d’enregistrement de la voix d’une personne, on peut construire un modèle de sa voix à l’aide de certains logiciels et en faire une voix de synthèse à laquelle on peut faire dire le texte que l’on veut. Ce type d’attaque est le plus dangereux. C’est pourquoi les chercheurs partout dans le monde travaillent fort à les prévenir, principalement en détectant des artefacts très subtils dans le son qui permettent de déterminer qu’il s’agit d’une voix de synthèse et pas d’un humain.
Et les doppëlganger vocaux dans tout ça ?
C’est le seul type d’attaque pour lequel on n’a pas encore de solution, mais c’est aussi le plus rare… à ce qu’on sache, il ne s’est encore jamais produit !
En fait, les chercheurs se disent qu’avec les milliards d’humains sur la planète, il y a sûrement quelque part quelqu’un qui a la même voix que nous, ou une voix assez similaire pour tromper le système. Donc si cette personne le voulait, elle pourrait sûrement avoir accès à nos comptes. Mais les chances qu’elle parle notre langue, qu’elle nous trouve et qu’elle soit très motivée à nous frauder restent quand même limitées, disons !
Question bonus à la CSI :
J’ai un enregistrement de quelqu’un en train de commettre un crime. Puis-je enregistrer la voix d’un suspect et prouver que c’est la même personne en utilisant la biométrie vocale ?
En bref : non.
En fait, lorsque nous tentons de nous authentifier par la voix, le système compare la voix qu’il capte avec un enregistrement de référence de notre voix fourni lors de notre inscription au système. Ensuite, le système produit un score de similitude entre les deux voix, et c’est au programmeur humain de déterminer à partir de quel score deux voix sont acceptées comme appartenant à la même personne. Cette limite varie selon le type d’information auquel on tente d’accéder : elle sera probablement plus élevée pour accéder à notre compte bancaire que pour demander à Google Home de tamiser les lumières, par exemple.
Donc, chaque système de biométrie fournit un score de similitude après avoir comparé deux voix. Par ailleurs, le score de similitude n’a du sens que dans un contexte de comparaison : il est toujours relatif. C’est comme donner l’âge d’une personne (une donnée mesurable fixe), et ensuite se demander si elle est vieille (donnée relative et comparative) : la réponse sera plus complexe et variera selon les points de vue.
Pareil pour les systèmes de biométrie vocale qui traitent et analysent une grande quantité d’échantillons de voix. Ils peuvent déterminer dans quelle proportion deux échantillons sont similaires parce qu’on a plusieurs autres enregistrements en banque effectués dans les mêmes conditions qui servent de points de référence. Si on ne possède que deux enregistrements pris seuls, sans population référence à laquelle les comparer, il est très risqué d’affirmer qu’on arrive à identifier quelqu’un hors de tout doute. Le poids légal d’une preuve par biométrie vocale n’a donc pas encore été établi.
Et avant qu’il le soit, il faudra déterminer quel score est suffisant pour qu’une identification vocale soit utilisée comme preuve lors d’un procès et quel système de biométrie sera utilisé et accepté.
Bref, Batman et compagnie peuvent dormir tranquilles… ce n’est pas demain la veille que la police de Gotham les retracera grâce à leurs déclarations épiques!
Sources d’information supplémentaires
Visionnez la conférence de Gilles Boulianne lors du Desjardins Lab