Aprendizaje por refuerzo con opciones y función de refuerzo universal

"El objetivo de los algoritmos de aprendizaje por refuerzo es maximizar las recompensas acumuladas a lo largo del tiempo para hallar un comportamiento objetivo. De esta forma, para aprender distintos comportamientos, la variable a cambiar sería la función de refuerzo dada para ese problema. El...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Bruno Cilla, Diego, Heimann, Matías, Scaglioni, Giuliano
Otros Autores: Santos, Juan Miguel
Formato: Proyecto final de Grado
Lenguaje:Español
Publicado: 2021
Materias:
Acceso en línea:http://ri.itba.edu.ar/handle/123456789/3385
Aporte de:
Descripción
Sumario:"El objetivo de los algoritmos de aprendizaje por refuerzo es maximizar las recompensas acumuladas a lo largo del tiempo para hallar un comportamiento objetivo. De esta forma, para aprender distintos comportamientos, la variable a cambiar sería la función de refuerzo dada para ese problema. El objetivo de este trabajo es explorar una alternativa en la cual se puedan adquirir distintos comportamientos, manteniendo siempre la misma función de refuerzo, siendo que la variable sea los distintos entornos en los que se realiza el aprendizaje."