Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Delgado, Francisco
Otros Autores:	Santos, Juan Miguel
Formato:	Proyecto final de Grado
Lenguaje:	Español
Publicado:	2021
Materias:	APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES
Acceso en línea:	http://ri.itba.edu.ar/handle/123456789/3396
Aporte de:	Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA) de Instituto Tecnológico de Buenos Aires (ITBA)

id	I32-R138-123456789-3396
record_format	dspace
spelling	I32-R138-123456789-33962022-12-07T14:26:57Z Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos Delgado, Francisco Santos, Juan Miguel APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES "El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo." Proyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020 2021-02-12T13:40:28Z 2021-02-12T13:40:28Z 2020-12-21 Proyecto final de Grado http://ri.itba.edu.ar/handle/123456789/3396 es application/pdf
institution	Instituto Tecnológico de Buenos Aires (ITBA)
institution_str	I-32
repository_str	R-138
collection	Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA)
language	Español
topic	APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES
spellingShingle	APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES Delgado, Francisco Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
topic_facet	APRENDIZAJE POR REFUERZO ALGORITMOS REDES NEURONALES
description	"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."
author2	Santos, Juan Miguel
author_facet	Santos, Juan Miguel Delgado, Francisco
format	Proyecto final de Grado
author	Delgado, Francisco
author_sort	Delgado, Francisco
title	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_short	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_full	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_fullStr	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_full_unstemmed	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
title_sort	esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
publishDate	2021
url	http://ri.itba.edu.ar/handle/123456789/3396
work_keys_str_mv	AT delgadofrancisco esquemaactorcriticoenaprendizajeporrefuerzoconespacioscontinuos
_version_	1765660830427250688

Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

Ejemplares similares