Séminaire R-D : Le clustering haute performance avec Spark

Séminaire R-D : Le clustering haute performance avec Spark
9/03/16 11h00
CRIM (405, avenue Ogilvy, bureau 101)

Le clustering haute performance avec Spark

Conférence en français.

Téléchargez la présentation

Conférencier : Thomas Triplet, Ph. D., Chercheur – scientifique de données, équipe Développement et technologies Internet du CRIM.

Résumé : Le clustering est une tâche fondamentale pour l’exploration et la fouille de données. Il vise à découvrir la nature inconnue de données en regroupant les objets de données qui sont plus similaires.

Alors que des centaines d’algorithmes de clustering ont été proposés, beaucoup sont complexes et ont un temps de calcul insuffisant pour analyser de très grands ensembles de données (big-data). En outre, de nombreux regroupement d’algorithmes sont séquentiels, donc intrinsèquement difficiles à paralléliser.

Nous proposons Patchwork, un nouvel algorithme de clustering pour résoudre ces problèmes. Patchwork est un algorithme de clustering de densité distribué avec une complexité de calcul linéaire et mise à l’échelle horizontale linéaire. Il présente plusieurs caractéristiques souhaitables à la découverte de connaissances, en particulier, il n’a pas besoin a priori du nombre de clusters pour les identifier, et offre une protection naturelle contre les valeurs aberrantes et le bruit. En outre, pour les applications géospatiales, Patchwork permet de découvrir des clusters physiquement larges plutôt que des clusters denses seulement.

Patchwork repose sur le paradigme map / reduce pour paralléliser les calculs, et a été implémenté en utilisant Spark Apache, le cadriciel de calcul distribué. En conséquence, Patchwork peut regrouper un milliard de points en quelques minutes seulement, une amélioration de plus de 1000x sur une implémentation distribuée Spark du populaire algorithme DBScan, et une amélioration de 40x sur l’implémentation distribuée native de k-means dans Spark MLlib.

Biographie


Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les boursiers de 2e et 3e cycles du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.

INSCRIPTION : Carmen.Robert@crim.ca ou 514 840-7992.
Conférence gratuite. Mercredi, le 9 mars 2016, de 11 h à 12 h. Salle 11.
Au CRIM, 405, avenue Ogilvy, bureau 101, Montréal.

 

Ajouter au calendrier 09-03-2016 11:00 09-03-2016 12:00 15 Séminaire R-D au CRIM Gratuit, réservation à carmen.robert@crim.ca CRIM (405, avenue Ogilvy, bur. 101, Montréal, Salle 11) CRIM info@crim.ca false DD/MM/YYYY

 
  • #Bientôt ???? Le CRIM présentera le projet Application des technologies vocales aux langues autochtones le 19 novembre… https://t.co/FnO5IKw79H
  • Tom Landry RT @Tom_Landry_: Ce fût un réel plaisir que de partager ma vision de l'avenir de la géomatique. Et que dire des mots-clés sélectionné par l…