How to train a robot (using AI and supercomputers)

Los informáticos desarrollaron un método de aprendizaje profundo para crear objetos realistas para entornos virtuales que pueden usarse para entrenar robots. Los investigadores utilizaron la supercomputadora Maverick2 de TACC para entrenar la red antagónica generativa. La red es la primera que puede producir nubes de puntos de colores con detalles finos en múltiples resoluciones.

Fuente:Universidad de Texas en Austin, Centro de Computación Avanzada de Texas

Antes de unirse a la Universidad de Texas en Arlington como profesor asistente en el Departamento de Ciencias de la Computación e Ingeniería y fundar allí el Laboratorio de Visión Robótica, William Beksi hizo una pasantía en iRobot, el productor de robots de consumo más grande del mundo (principalmente a través de su aspiradora robótica Roomba).

Para navegar en entornos construidos, los robots deben poder detectar y tomar decisiones sobre cómo interactuar con su entorno. Los investigadores de la compañía estaban interesados en usar máquinas y aprendizaje profundo para entrenar a sus robots para que aprendan sobre los objetos, pero hacerlo requiere un gran conjunto de datos de imágenes. Si bien hay millones de fotos y videos de habitaciones, ninguno fue tomado desde el punto de vista de una aspiradora robótica. Los esfuerzos para entrenar usando imágenes con perspectivas centradas en el ser humano fracasaron.

La investigación de Beksi se centra en la robótica, la visión artificial y los sistemas ciberfísicos. “En particular, estoy interesado en desarrollar algoritmos que permitan a las máquinas aprender de sus interacciones con el mundo físico y adquirir de manera autónoma las habilidades necesarias para ejecutar tareas de alto nivel”, dijo.

Años más tarde, ahora con un grupo de investigación que incluye a seis estudiantes de doctorado en informática, Beksi recordó el problema de capacitación de Roomba y comenzó a explorar soluciones. Un enfoque manual, utilizado por algunos, implica el uso de una costosa cámara de 360 grados para capturar entornos (incluidas las casas alquiladas de Airbnb) y un software personalizado para volver a unir las imágenes en un todo. Pero Beksi creía que el método de captura manual sería demasiado lento para tener éxito.

En cambio, buscó una forma de aprendizaje profundo conocida como redes antagónicas generativas, o GAN, donde dos redes neuronales compiten entre sí en un juego hasta que el 'generador' de nuevos datos puede engañar a un 'discriminador'. Una vez entrenada, dicha red permitiría la creación de un número infinito de posibles habitaciones o entornos al aire libre, con diferentes tipos de sillas o mesas o vehículos con formas ligeramente diferentes, pero aún así, para una persona y un robot, objetos identificables con dimensiones y características reconocibles.

“Puede perturbar estos objetos, moverlos a nuevas posiciones, usar diferentes luces, colores y texturas, y luego convertirlos en una imagen de entrenamiento que podría usarse en un conjunto de datos”, explicó. "Este enfoque podría proporcionar datos ilimitados para entrenar a un robot".

“Diseñar manualmente estos objetos requeriría una gran cantidad de recursos y horas de trabajo humano mientras que, si se entrenan adecuadamente, las redes generativas pueden fabricarlos en segundos”, dijo Mohammad Samiul Arshad, estudiante graduado en el grupo de Beksi involucrado en la investigación.

GENERACIÓN DE OBJETOS PARA ESCENAS SINTÉTICAS

Después de algunos intentos iniciales, Beksi se dio cuenta de que su sueño de crear escenas completas fotorrealistas estaba actualmente fuera de su alcance. “Dimos un paso atrás y observamos la investigación actual para determinar cómo comenzar a una escala más pequeña, generando objetos simples en entornos”.

Beksi y Arshad presentaron PCGAN, la primera red antagónica generativa condicional que genera nubes de puntos de colores densos en un modo no supervisado, en la Conferencia internacional sobre visión 3D (3DV) en noviembre de 2020. Su artículo, "A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds", muestra que su red es capaz de aprender de un conjunto de entrenamiento (derivado de ShapeNetCore, una base de datos de modelo CAD) e imitar un Distribución de datos 3D para producir nubes de puntos de colores con detalles finos en múltiples resoluciones.

“Hubo algún trabajo que podría generar objetos sintéticos a partir de estos conjuntos de datos de modelos CAD”, dijo. “Pero nadie podía manejar el color todavía”.

Para probar su método en una diversidad de formas, el equipo de Beksi eligió sillas, mesas, sofás, aviones y motocicletas para su experimento. La herramienta permite a los investigadores acceder al número casi infinito de posibles versiones del conjunto de objetos que genera el sistema de aprendizaje profundo.

“Nuestro modelo primero aprende la estructura básica de un objeto a bajas resoluciones y se desarrolla gradualmente hacia detalles de alto nivel”, explicó. “La red también aprende la relación entre las partes del objeto y sus colores, por ejemplo, las patas de la silla/mesa son del mismo color mientras que el asiento/superior contrastan. Comenzamos poco a poco, trabajando con objetos y construyendo una jerarquía para generar una escena sintética completa que sería extremadamente útil para la robótica”.

Generaron 5000 muestras aleatorias para cada clase y realizaron una evaluación utilizando varios métodos diferentes. Evaluaron tanto la geometría como el color de la nube de puntos usando una variedad de métricas comunes en el campo. Sus resultados mostraron que PCGAN es capaz de sintetizar nubes de puntos de alta calidad para una variedad dispar de clases de objetos.

SIM2REAL

Otro tema en el que está trabajando Beksi se conoce coloquialmente como 'sim2real'. “Tiene datos de entrenamiento reales y datos de entrenamiento sintéticos, y puede haber diferencias sutiles en cómo un sistema de IA o un robot aprende de ellos”, dijo. "'Sim2real' analiza cómo cuantificar esas diferencias y hacer que las simulaciones sean más realistas mediante la captura de la física de esa escena (fricción, colisiones, gravedad) y mediante el uso de trazado de rayos o fotones".

El siguiente paso para el equipo de Beksi es implementar el software en un robot y ver cómo funciona en relación con la brecha entre el dominio simulado y el real.

El entrenamiento del modelo PCGAN fue posible gracias al recurso de aprendizaje profundo Maverick 2 de TACC, al que Beksi y sus estudiantes pudieron acceder a través del programa de Investigación de Ciberinfraestructura de la Universidad de Texas (UTRC), que proporciona recursos informáticos a los investigadores en cualquiera de las 14 instituciones del Sistema UT.

“Si desea aumentar la resolución para incluir más puntos y más detalles, ese aumento conlleva un aumento en el costo computacional”, señaló. “No tenemos esos recursos de hardware en mi laboratorio, por lo que era esencial utilizar TACC para hacerlo”.

Además de las necesidades informáticas, Beksi requería un amplio almacenamiento para la investigación. “Estos conjuntos de datos son enormes, especialmente las nubes de puntos 3D”, dijo. “Generamos cientos de megabytes de datos por segundo; cada nube de puntos tiene alrededor de 1 millón de puntos. Necesitas una enorme cantidad de almacenamiento para eso”.

Si bien Beksi dice que el campo todavía está muy lejos de tener robots robustos realmente buenos que puedan ser autónomos durante largos períodos de tiempo, hacerlo beneficiaría a múltiples dominios, incluidos el cuidado de la salud, la fabricación y la agricultura.

“La publicación es solo un pequeño paso hacia el objetivo final de generar escenas sintéticas de ambientes interiores para mejorar las capacidades de percepción robótica”, dijo.

Fuente de la historia:

Materiales proporcionado por Universidad de Texas en Austin, Centro de Computación Avanzada de Texas. Original escrito por Aaron Dubrow. Nota: el contenido se puede editar por estilo y longitud.