Redes Neurais Convolucionais para Identificação e Preensão Robótica de Objetos

Caio Cristiano  Barros Viturino; Kleber  de Lima Santana Filho; Daniel   M. de Oliveira; Cézar  Bieniek Lemos; André Gustavo  Scolari Conceição

doi:10.48011/asba.v2i1.1163

Caio Cristiano Barros Viturino Universidade Federal da Bahia
Kleber de Lima Santana Filho Universidade Federal da Bahia
Daniel M. de Oliveira Universidade Federal da Bahia
Cézar Bieniek Lemos Universidade Federal da Bahia
André Gustavo Scolari Conceição Universidade Federal da Bahia

DOI: https://doi.org/10.48011/asba.v2i1.1163

Keywords: Robótica, Preensão, Visão computacional, Manipulação, Detecção de preensão robótica

Abstract

Este artigo propõe um sistema em cascata de duas etapas utilizando a Generative Grasping Convolutional Neural Network (GG-CNN) e uma versão modificada da arquitetura Single Shot Multibox Detector (SSD) para a realização de preensões robóticas através de reconhecimento de objetos, utilizando visão computacional. O método proposto foi denominado Single Shot Generative Grasping Convolutional Neural Network (SSGG-CNN). A GG-CNN é uma técnica eficiente de preensão robótica que funciona em objetos de qualquer geometria, conhecida pelo excelente desempenho em malha aberta e malha fechada, através de inferências realizadas em cada pixel de uma imagem de profundidade. No entanto, essa técnica não permite ao manipulador efetuar preensões em objetos de forma seletiva. Este artigo propõe um sistema em cascata de duas etapas utilizando a Generative Grasping Convolutional Neural Network (GG-CNN) e uma versão modificada da arquitetura Single Shot Multibox Detector (SSD) para a realização de preensões robóticas através de reconhecimento de objetos, utilizando visão computacional. O método proposto foi denominado Single Shot Generative Grasping Convolutional Neural Network (SSGG-CNN). A GG-CNN é uma técnica eficiente de preensão robótica que funciona em objetos de qualquer geometria, conhecida pelo excelente desempenho em malha aberta e malha fechada, através de inferências realizadas em cada pixel de uma imagem de profundidade. No entanto, essa técnica não permite ao manipulador efetuar preensões em objetos de forma seletiva. Para mitigar este problema, a versão modicada da SSD foi adotada para a detecção e seleção de objetos para a posterior preensão. Experimentos em malha aberta produziram uma taxa media de sucesso de 85% na preensão de objetos organizados aleatoriamente em superfcie plana. O codigo do projeto está disponível em github.com/lar-deeufba/ssggcnn_ur5_grasping.