Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Errecalde, Marcelo Luis, Muchut, Alfredo
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2001
Materias:	Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/23400
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-23400
record_format	dspace
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística
spellingShingle	Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística Errecalde, Marcelo Luis Muchut, Alfredo Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
topic_facet	Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística
description	El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.
format	Objeto de conferencia Objeto de conferencia
author	Errecalde, Marcelo Luis Muchut, Alfredo
author_facet	Errecalde, Marcelo Luis Muchut, Alfredo
author_sort	Errecalde, Marcelo Luis
title	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_short	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_fullStr	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full_unstemmed	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_sort	exploración dirigida por el objetivo en aprendizaje por refuerzo basado en modelo para ambientes no estacionarios
publishDate	2001
url	http://sedici.unlp.edu.ar/handle/10915/23400
work_keys_str_mv	AT errecaldemarceloluis exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios AT muchutalfredo exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios
bdutipo_str	Repositorios
_version_	1764820465883283458

Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

Ejemplares similares