Veille et meilleures pratiques

Document de présentation technique - Systèmes et méthodes de suivi de personnes et de leur posture

Landry, T. Systèmes et méthodes de suivi de personnes et de leur posture. Montréal, CRIM, 2013. 5 p.
[Texte complet]

Le suivi de personnes est un processus couramment employé dans diverses applications de vision artificielle, notamment en surveillance, en analyse de comportements, en sports ou en interaction humain-machine. Le corps humain est alors souvent réduit à un modèle simple, par exemple un point, une forme ou un solide dans l’espace [1]. Les applications typiques de suivi impliquent d’abord une phase de détection où l’observation d’un humain est confirmée. Une fois ceci fait, il est possible de suivre une personne dans le temps, typiquement par des méthodes de filtrage. Détecter et localiser de façon précise un humain n’est pas toujours possible. Les environnements et éclairages sont changeants et souvent imprévisibles. Il est aussi souvent impossible d’observer certaines caractéristiques qui nous intéressent, comme la tête, les pieds ou les bras, simplement parce qu’ils sont cachés par des éléments de la scène ou par le corps de la personne elle-même. On parle alors d’occlusions visuelles.
 
Pour minimiser l’effet de ces occlusions et pour mieux repérer les caractéristiques voulues, une carte de profondeur peut être employée. Cette dernière est une image où chaque pixel indique la distance entre le sujet d’une scène et l’observateur. Elle peut être obtenue à partir de méthodes classiques, telles les caméras stéréo. Ce principe s’inspire de la vision humaine où les différences entre les deux yeux permettent d’estimer les distances. La compagnie Axper [6] commercialise un compteur de personnes placé au plafond d’un local. Un grand nombre de personnes peuvent alors être suivies dans un espace relativement grand. Quant à elle, la compagnie Raytheon [13] tire profit du LIDAR, une technologie de télédétection basée sur l’analyse de la réflexion de faisceaux lasers, pour distinguer et suivre des piétons.
 
Dans certaines applications, en plus de vouloir mesurer la position de la personne dans une scène, on veut reconnaître avec un certain niveau de confiance certaines activités. Un programme informatique pourra alors déterminer si quelqu’un court, tombe, saute, flâne, salue ou parle au téléphone. On peut par exemple vouloir répertorier toutes les fois qu’un but est compté ou que la ligne d’arrivée est franchie. À ce compte, le National Institute of Standards and Technology, ou NIST, organise chaque année la compétition TRECVID [2] pour la détection d’événement de surveillance. C’est une bonne occasion pour présenter de nouveaux algorithmes ou pour amener sa propre recherche à niveau. Le CRIM participe par ailleurs à cette importante compétition depuis quelques années.
 
Afin de reconnaître, analyser ou reproduire des activités humaines, il est souvent nécessaire d’obtenir une localisation très précise des parties du corps. L’exemple le plus connu est celui de la capture du mouvement employée en cinéma et dans le jeu vidéo. Ces systèmes peuvent cependant aussi servir à la recherche scientifique, par exemple en kinésiologie ou en réadaptation physique. À la différence du suivi de personne, le suivi de la posture humaine implique que souvent, le squelette en entier est modélisé. Plusieurs méthodes sont disponibles pour y parvenir. On peut faire appel ou non à des capteurs ou senseurs optiques, comme des caméras. Les systèmes optiques peuvent fonctionner avec ou sans marqueurs, de petites cibles facilitant la localisation des parties du corps ou des articulations. Finalement, ces marqueurs peuvent être passifs ou actifs.
 
Il existe un très grand nombre de méthodes de suivi de la posture basées sur l’image. La plus ancienne est la rotoscopie, où un observateur trace manuellement des points, segments et contours sur chaque trame d’une séquence vidéo, et ce pour plusieurs plans d’observation. Ce laborieux procédé est de nos jours semi-automatisé au sein de logiciels d’analyse vidéo spécialisés, tels Dartfish [10] ou Xcitex [11]. Le spécialiste peut alors entrer les régions d’intérêt initiales à suivre ou, dans certains cas, laisser le programme les détecter automatiquement, et des algorithmes de suivi numérisent le mouvement humain.
 
Pour améliorer la précision et la robustesse générale de systèmes de suivi de la posture, en plus de diminuer grandement le temps requis pour acquérir les données, des marqueurs peuvent être appliqués sur le sujet. Les marqueurs passifs sont souvent de petites balles hautement réfléchissantes illuminées par des projecteurs infrarouges. Le réseau de caméras est calibré pour ne voir que ces petits points. Les marqueurs actifs sont quant à eux des illuminateurs de type LED allumés très rapidement dans une séquence prédéterminée [20]. Dans les deux cas, l’observation simultanée d’un même marqueur par plusieurs caméras permet de positionner ce point dans l’espace avec une précision sous le millimètre, par triangulation. Les compagnies Vicon [19], NaturalPoint [15], Optotrack [17], Oqus [14] et PhaseSpace [16] offrent des produits de capture du mouvement très matures.
 
De nouvelles approches permettent la mesure de la posture et du mouvement humain sans l’aide de combinaisons ou marqueurs. La technologie employée dans la Kinect de Microsoft en est un bon exemple. En étant accessible à un large public, elle démocratise l’accès à un champ relativement nouveau des interfaces humain-machine, soit les interfaces utilisateur naturelles (abrévié NUI en anglais). Le corps devient alors le seul contrôleur requis pour commander le jeu, la télé ou l’environnement. En plus de traiter une image couleur, la Kinect génère une carte de profondeur en projetant une grille de points de lumière infrarouges [23]. Ces deux sources sont combinées et analysées par des algorithmes spécialisés dits d’apprentissage machine qui savent détecter les postures et les mouvements les plus communs. Cependant, son utilité dans les applications médicales n’a pas encore été éprouvée par Microsoft [9]. Dès lors, des solutions plus matures et plus dispendieuses comme le BioStage de OrganicMotion [12] sont indiquées.
 
Il existe plusieurs méthodes pour positionner un humain dans l’espace qui ne font pas appel à l’image. Les récepteurs GPS viennent rapidement à l’esprit. Bien que de plus en plus petits et précis, ils servent plus souvent de référence absolue en support à d’autres mesures que de senseurs individuels pour suivre les parties du corps. En d’autres mots, la technologie GPS est parfaite pour le suivi de personne, mais pas pour l’évaluation de la posture.
 
Certaines approches de capture du mouvement sont purement mécaniques. Les plaques de pression sont des genres de tuiles qui mesurent la répartition du poids d’une personne sur le sol. D’autres approches sont plus inusitées. Certains centres de recherche emploient des cages sphériques s’apparentant à des exerciseurs de hamster. On mesure alors les déplacements linéaires du sujet dans un environnement virtuel. L’exosquelette Gypsy [5] est une structure qui permet de mesurer en temps réel le déplacement des articulations de façon très précise. Le sujet risque cependant d’avoir l’impression d’être étreint par un robot! Pour un peu plus de confort, des textiles intelligents sont actuellement mis au point avec divers matériaux polymères flexibles, ce qui permet de mesurer la tension et la torsion appliquées à un vêtement.
 
Les accéléromètres sont des capteurs fréquemment employés dans les appareils nous entourant, que ce soit dans les téléphones intelligents ou les manettes de Playstation ou de Nintendo. En connaissant l’accélération, il est possible de récupérer par intégration du signal la vitesse ou le déplacement [22]. Combinés à des gyroscopes et à des magnétomètres mesurant le champ magnétique terrestre, on les appelle plus couramment des unités de mesure inertielle (abrévié IMU en anglais). La compagnie XSens [18] commercialise un vêtement de capture de mouvement employant 17 unités.
 
Le positionnement peut aussi être réalisé purement par de la force de champs magnétiques. Des boucles d’induction contenues dans un petit transmetteur sont activées séquentiellement. Un récepteur mesure le champ électromagnétique ainsi produit, ce qui permet de déterminer la position et l’orientation du transmetteur. Ascension Technologies [4] et Polhemus [3] mettent sur le marché depuis plusieurs années des solutions basées sur cette technologie. Il est aussi possible de mesurer le temps requis par une onde sonore pour rejoindre un petit récepteur placé dans un endroit connu dans l’espace ou encore de mesurer les différences de phase entre ondes sonores. On parle alors de positionnement acoustique. Par extension, l’EchoScope [8] se base sur le sonar pour obtenir une carte tridimensionnelle sous-marine, ce qui peut en théorie s’avérer utile pour les richissimes plongeurs en apnée désirant analyser leur technique.
 
Avec tous ces choix, comment choisir un système en particulier? Évidemment, le budget est un point important, le coût des solutions disponibles sur le marché s’étendant de 500 $ à 100 000 $. En général, le montant déboursé est étroitement lié au niveau de précision et au nombre de segments suivis. Il est aussi important de bien définir le contexte de l’acquisition de données. Y a-t-il plusieurs personnes à suivre? Sont-elles en interactions? Quels types de mouvements veut-on mesurer? Quel est le volume de la zone à couvrir? A-t-on affaire à un environnement intérieur ou extérieur? D’autres considérations plus techniques auront aussi des répercussions importantes. Par exemple, doit-on pouvoir utiliser le système en temps réel? Sinon, combien de temps et d’efforts peut-on se permettre en post-traitement? A-t-on accès à des mécanismes de synchronisation pour lier d’autres sources de données? Intégrera-t-on le système de capture à d’autres systèmes, via un API par exemple [21] ? Armé de ces réponses, il est plus facile de conseiller le bon type de système.
 
Sources :
  1. CRIM, projet Podium
  2. NIST TRECVID evaluation
  3. Polhemus Electromagnetic Motion Capture
  4. Ascension Technologies Electromagnetic Tracker
  5. Gypsy Motion Capture System
  6. Axper people counter
  7. Raytheon Lidar People Tracking
  8. CodaOctopus Echoscope
  9. Microsoft Research, Full Body Gait Analysis With Kinect
  10. Dartfish Video Analysis System
  11. Xcitex Video Capture and Analysis System
  12. Organic Motion Capture System
  13. Raytheon BBN Technologies, Lidar People Tracking
  14. Oqus Underwater Motion Capture Cameras
  15. NaturalPoint Optitrack Motion Capture Camera
  16. PhaseSpace Motion Capture System
  17. Optotrack Research-Grade Motion Capture
  18. XSens Inertial Motion Capture
  19. Vicon Optical Tracking
  20. HITLab, Washington University, Tracking Devices
  21. MetaMotion, Motion Capture Systems – How to Choose
  22. Article Wikipedia, capture de mouvement
  23. Article Wikipedia, Kinect