Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Delgado, Francisco
Otros Autores: Santos, Juan Miguel
Formato: Proyecto final de Grado
Lenguaje:Español
Publicado: 2021
Materias:
Acceso en línea:http://ri.itba.edu.ar/handle/123456789/3396
Aporte de:
id I32-R138-123456789-3396
record_format dspace
spelling I32-R138-123456789-33962022-12-07T14:26:57Z Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos Delgado, Francisco Santos, Juan Miguel APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES "El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo." Proyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020 2021-02-12T13:40:28Z 2021-02-12T13:40:28Z 2020-12-21 Proyecto final de Grado http://ri.itba.edu.ar/handle/123456789/3396 es application/pdf
institution Instituto Tecnológico de Buenos Aires (ITBA)
institution_str I-32
repository_str R-138
collection Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA)
language Español
topic APRENDIZAJE POR REFUERZO
ALGORITMOS
REDES NEURONALES
spellingShingle APRENDIZAJE POR REFUERZO
ALGORITMOS
REDES NEURONALES
Delgado, Francisco
Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
topic_facet APRENDIZAJE POR REFUERZO
ALGORITMOS
REDES NEURONALES
description "El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."
author2 Santos, Juan Miguel
author_facet Santos, Juan Miguel
Delgado, Francisco
format Proyecto final de Grado
author Delgado, Francisco
author_sort Delgado, Francisco
title Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_short Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_full Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_fullStr Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_full_unstemmed Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_sort esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
publishDate 2021
url http://ri.itba.edu.ar/handle/123456789/3396
work_keys_str_mv AT delgadofrancisco esquemaactorcriticoenaprendizajeporrefuerzoconespacioscontinuos
_version_ 1765660830427250688