L’assistance robotisée à l’aide de la vision est en pleine effervescence, notamment pour les personnes âgées en perte de mobilité et les personnes atteintes de troubles musculo-squelettiques. Ce mémoire met en lumière les solutions développées dans le cadre d’une maîtrise recherche du département de génie mécanique de l’École Polytechnique de Montréal.
Dans ce contexte, la Kinect V2 a permis l’acquisition surfacique de scènes amenant alors le projet à la détection d’objets. Les méthodes de détection actuelles les plus robustes prennent encore beaucoup de temps de calcul, empêchant l’automatisation de la préhension d’objets par des robots dans un temps acceptable pour l’assistance des utilisateurs au quotidien.
L’objectif est alors de développer un système d’analyse de scène rapide utilisant la vision et l’intelligence artificielle pour la préhension d’objets par un robot d’assistance. Ce système doit permettre de répondre à l’ensemble des questions suivantes plus rapidement que les méthodes existantes : 1. Combien y a-t-il d’objets et où se situent-ils? 2. Comment les saisir, c.-à-d. quels sont les endroits de préhension efficaces et quelle est la phase d’approche à donner au robot? 3. Quels sont ces objets de la scène, reconnus à partir d’un apprentissage neuronal sur un ensemble de données acquis avec une caméra active?
Avec l’acquisition d’un ensemble de données de 180 scènes comprenant un objet chacun, la solution a été développée en 3 étapes : 1. La détection d’objets comprenant la transformation des scènes brutes acquises en données matricielles et la segmentation 3D des scènes pour trouver les objets à l’aide d’un algorithme innovant de « palpage par le haut » suivi de l’élimination des points indésirables par calcul de leur gradient. 2. Apprentissage supervisé de l’ensemble des données suite aux algorithmes de détection d’objets des scènes. 3. Analyse de scène des objets comprenant l’identification des endroits de préhension des objets et la phase d’approche du bras robotique à l’aide d’un arbre de décision simple, puis l’utilisation d’un réseau neuronal combinant deux caractéristiques dont la surface et la couleur RGB nous permettant d’obtenir 83 % de performance dans un espace connu pour la reconnaissance d’objets.
Cette étude démontre que l’analyse de scène rapide utilisant la vision et l’intelligence artificielle pour la préhension d’objets par un robot d’assistance en coopération avec un utilisateur peut être réalisée en un temps efficace. En effet, le système prend en moyenne 0,6 seconde pour l’analyse d’un objet dans une scène. Avec le bras robotique d’assistance Jaco, le système peut prendre un objet désiré en 15 secondes en se déplaçant à 50 mm/s et le temps peut être grandement diminué en augmentant la vitesse. Ce système combiné à un robot d’assistance a un grand potentiel afin de permettre aux utilisateurs d'être plus autonomes, indépendants et de mieux adhérer à l’utilisation de leur aide technique.
Vision-assisted robotic aid is a rapidly expanding field, particularly solutions developed for people affected by age-related loss of mobility and for people subject to musculoskeletal disorders. This thesis presents the series of the solutions developed in the context of a research master at the Mechanical Engineering Department of École Polytechnique de Montréal.
In this context, the Kinect V2 allows for rapid surface acquisition of scenes bringing the project to focus on objects detect. The current detection methods available need a lot of computing time, preventing the full automation of prehending objects by robots, in an acceptable time, for the assistance of target users in their everyday activities.
The objective of this study is therefore to develop algorithm for fast automated scene analysis and object prehension. The developed algorithm must provide answers to all the following questions faster than existing methods do: 1. How many of the objects are there, and where are they located? 2. Which coordinates on the objects are effective prehension targets and what is the favored path of approach for the robot? 3. What are the objects in the scene, as identified by a neural network on data from an active camera?
With the acquisition of a dataset composed of 180 scenes with an object in each scene, the solution was developed following three stages: 1. Object detection involving transformation of raw scenes into data matrices and 3D scene segmentation to find the objects, by means of a novel algorithm for “top-down probing”. This is followed by elimination of undesirable points based on their gradients. 2. After object detection, supervised learning is performed on the objects in the dataset. 3. Scenes containing the objects are analyzed, which includes identification of grasping targets on the objects using a simple decision tree, and selection of the approach path of the robotic arm for full prehension.
Subsequently, a neural network performs object recognition utilizing surface geometry and RGB color, yielding 83% performance in a controlled environment.
This study has shown that fast scene analysis for robotic prehension of objects in cooperation with a user can be performed with effective promptness. Indeed, the system requires on average 0.6 seconds to analyze an object in a scene. With the JACO robotic assistance arm, the system can pick up a requested object in 15 seconds while moving at 50 mm/s, which may be greatly improved upon using faster robots. This system, in combination with an assistive robot, has great potential for providing potential users with improved autonomy and independence, and for encouraging sustained usage of technical aids.