Evaluating and securing banking chatbots: technical approaches and real-world challenges

16 septembre 2025

Ce billet de blogue est également disponible en français ci-dessous.

In the banking sector, integrating chatbots can present major technical challenges, particularly in terms of performance measurement and risk management.

On Thursday, September 18, at noon, Guillaume Delroeux, President of Prométhée Consultants, and Marc Queudot, Practice Lead in Language Science and Technology at CRIM, will share the results of a rigorous comparative study conducted on conversational assistants used by a range of major financial institutions in Canada.

Performance indicators: granularity and relevance

The first step in evaluating an assistant is to define robust metrics.

“In our analysis, we focused on simple answers. Is the answer to the user’s question correct?” explains Marc Queudot in an interview in French.

He distinguishes between metrics related to system performance and response accuracy, and those concerning user experience.

“In well-designed assistants, the experience is fluid and the support is much higher—you’re offered the information you need rather than just an answer close to your question. It’s subtle, but you can only really know by experiencing the bot.”

The technical analysis should also consider the assistant’s ability to manage multi-turn conversations rather than isolated question-answer pairs, as well as conversational context—two elements that complicate evaluation but are essential for advanced use cases.

Risk management: intrusion testing and monitoring

Chatbots can come with multiple risks: hallucinations, bias, critical errors and damage to a brand’s image.

Marc Queudot emphasizes the need for intrusion testing.

“The classic approach in security for assistants is called red teaming, which involves a team trying to break the chatbot.”

This type of test helps identify vulnerabilities, especially those that could expose the organization to regulatory risks.

He also highlights the importance of limiting transactional capabilities.

“Often, answering questions is enough for an assistant. You should think twice before adding features that increase risks.”

Marc Queudot, Practice Lead in Language Science and Technology at CRIM

Ongoing improvement: automation and human oversight

Ongoing improvement relies on automated collection and analysis of conversations.

“As usage grows, you’ll gather data, detect conversations where performance is lacking and identify areas for improvement.”

Systems must group problematic cases to allow human experts to intervene on complex issues. This hybrid approach ensures rapid adaptation to new needs and effective correction of detected flaws.

You should think twice before adding features that increase risks.

CRIM: expertise in risk mitigation

As a non-profit, CRIM offers a methodology for mitigating technological risks, combining experimentation, measurement and continuous optimisation.

“What we offer at CRIM is to carry out the technological risk mitigation and answer the question: can we develop a reliable, high-performing system and deploy it with minimal risk? That’s our core expertise and it enables organiszations to make informed investment decisions.”

Webinar: results and recommendations

On Thursday, September 18, at noon, the webinar will present the results of a comparative study on conversational assistants used by major Canadian financial institutions. Participants will benefit from the involvement of Prométhée’s team, which brings customer experience expertise to enhance the work’s impact.

“We’ll uncover the challenges faced by current systems. Then, we’ll discuss how to evaluate these systems to ensure we have the right vision and path for improvement.”

On the agenda for the session, to secure and maximize the value of banking chatbots :

  • technologies used
  • analysis methods
  • risks identified
  • technical recommendations

 

 


Évaluer et fiabiliser les chatbots bancaires – Approches techniques et enjeux réels

Dans le secteur bancaire, l’intégration des assistants conversationnels, ou chatbots, soulève des défis techniques majeurs, tant sur le plan de la mesure de performance que de la gestion des risques.

Le jeudi 18 septembre à midi, Guillaume Delroeux, Président de Prométhée Consultants et Marc Queudot, Chef de pratique, Sciences et technologies du langage au CRIM, partageront les résultats d’une étude comparative rigoureuse menée sur les assistants conversationnels utilisés par une panoplie de grandes institutions financières au Canada.

Indicateurs de performance : granularité et pertinence

La première étape pour évaluer un assistant consiste à définir des métriques robustes.

« Dans notre analyse, nous nous sommes focalisés sur les réponses simples. Est-ce que oui ou non la réponse à la question de l’utilisateur est correcte? » explique Marc Queudot.

Il distingue les métriques liées à la performance du système et à la justesse des réponses de celles autour de l’expérience utilisateur.

« Dans les assistants bien conçus, c’est fluide et il y a une prise en charge bien plus élevée, on te propose l’information dont tu as besoin plutôt que seulement la réponse à une question proche de la tienne. C’est subtil, mais on ne peut vraiment le savoir qu’en faisant l’expérience du bot. »

L’analyse technique doit également prendre en compte la capacité d’un assistant à gérer une conversation qui s’étend sur plusieurs échanges successifs, plutôt qu’une seule question et une réponse isolées, ou le contexte conversationnel, deux éléments qui complexifient l’évaluation mais sont essentiels pour des usages avancés.

Gestion des risques : tests d’intrusion et monitoring

Les risques liés aux assistants sont multiples : hallucinations, biais, erreurs critiques, et atteinte à l’image de marque.

Marc Queudot insiste sur la nécessité de tests d’intrusion : « Le grand classique dans le domaine de la sécurité, autour des assistants, ça s’appelle le red teaming, qui implique carrément une équipe de gens qui essayent de briser le chatbot.»

Ce type de test permet d’identifier les failles, notamment celles qui exposeraient l’organisation à des risques réglementaires.

Il souligne aussi l’importance de limiter les capacités transactionnelles des chatbots : « Répondre aux questions, c’est souvent suffisant pour un assistant. Il faut se poser la questionf deux fois avant d’ajouter des fonctionnalités qui augmenteraient le risque. »

Amélioration continue : automatisation et supervision humaine

L’amélioration continue repose sur la collecte et l’analyse automatisée des conversations.

« Tu vas, au fur et à mesure de l’utilisation, amasser des données, détecter les conversations où tu ne performes pas assez bien et ainsi identifier là où tu pourrais t’améliorer. »

Les systèmes doivent regrouper les cas problématiques pour permettre aux experts humains d’intervenir sur les cas complexes. Cette approche hybride garantit une adaptation rapide aux nouveaux besoins et une correction efficace des failles détectées.

Il faut se poser la question deux fois avant d’ajouter des fonctionnalités qui augmenteraient le risque.

Le CRIM : expertise et dérisquage technologique

En tant qu’OBNL, le CRIM propose une méthodologie de dérisquage technologique, combinant expérimentation, mesure et optimisation continue.

« Nous, ce qu’on propose au CRIM, c’est d’aller faire le dérisquage technologique et donner la réponse à : est-ce possible de développer un système fiable, performant, et déployer des systèmes comme ça, à moindre risque. C’est notre cœur de métier et ça permet ensuite à l’organisation prendre des décisions d’investissement informées. »

Webinaire : résultats et recommandations

Le webinaire du jeudi 18 septembre à midi, offert en anglais, présentera les résultats d’une étude comparative sur les assistants conversationnels des grandes institutions financières canadiennes. Les participants profiteront de la participation de l’équipe de Prométhée qui amène l’expertise de l’expérience client à ce travail pour lui donner plus d’impact.

« On va se rendre compte des défis auxquels font face les systèmes en place. Et après, on va discuter de comment on évalue ces systèmes pour s’assurer qu’on a la bonne vision et la bonne avenue pour les améliorer. »

Au programme, pour fiabiliser et maximiser la valeur des chatbots bancaires :

  • technologies utilisées
  • méthodes d’analyse
  • risques identifiés
  • recommandations techniques

 

Mots-clés

Partager sur vos médias sociaux

button upCreated with Sketch.

Abonnez-vous à notre infolettre

*Champs requis

Ce champ est masqué lorsque l‘on voit le formulaire.