Título: «Aprendizaje por refuerzo aplicado a un agente arquero»
Autor: Diego Giuliani
Director: Dra. Laura Cecchi
Carrera: Licenciatura en Ciencias de la Computación
Fecha de defensa: 26 de noviembre de 2015
Resumen
En las últimas décadas, el aprendizaje automático ha evolucionado a pasos agigantados. Se han desarrollado algoritmos eficientes para ciertos tipos de aprendizaje, como por ejemplo sistemas de reconocimiento facial, automóviles que conducen en forma autónoma y sistemas de detección de fraude electrónico. Una de las áreas que ha despertado en los investigadores mayor interés en los últimos años dentro del aprendizaje automático es el aprendizaje por refuerzo. El aprendizaje por refuerzo estudia cómo un agente es capaz de aprender a partir de la experiencia obtenida por la interacción con su ambiente, sin la intervención de un supervisor externo.
En el campo de la robótica, el aprendizaje por refuerzo tiene particular importancia debido a las características inherentes del entorno en que se desarrollan los agentes. Dichos entornos se caracterizan por ser continuos, dinámicos y estocásticos. Esto diculta la creación de modelos del ambiente necesarios para el entrenamiento del agente.
En este trabajo se presenta una arquitectura de un agente arquero que aprende a atajar pelotas a través del entrenamiento utilizando una técnica de aprendizaje por refuerzo: Diferencia Temporal. En particular, el agente aprende a través del algoritmo Q-learning ya que esta técnica no requiere conocer previamente un modelo del entorno. A fin de definir los estados, se discretizó el ambiente dividiendo a la cancha en regiones imaginarias y al movimiento de la pelota en secciones fijas. En base a esta discretización del ambiente, se observó que existía una simetría de estados respecto al centro de la cancha y se definió una relación de equivalencia entre los estados. Esta relación de equivalencia permitió aumentar la exploración del espacio de estados y reducir la complejidad espacial del algoritmo. El framework desarrollado en este trabajo puede ser extendido y aplicado en otro ambiente siempre y cuando se respete la relación de equivalencia entre los estados opuestos.
Por otra parte, se presenta la implementación de un simulador que controla tanto el aprendizaje del agente como los movimientos de la pelota y del arquero. Gracias su diseño modular, este puede ser fácilmente modificado para incorporar variables físicas presentes en el mundo real, como por ejemplo la velocidad variable de la pelota o casos en los que la pelota rebota en un objeto.