Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Errecalde, Marcelo Luis, Muchut, Alfredo
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2001
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/23400
Aporte de:
id I19-R120-10915-23400
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
spellingShingle Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
Errecalde, Marcelo Luis
Muchut, Alfredo
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
topic_facet Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
description El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.
format Objeto de conferencia
Objeto de conferencia
author Errecalde, Marcelo Luis
Muchut, Alfredo
author_facet Errecalde, Marcelo Luis
Muchut, Alfredo
author_sort Errecalde, Marcelo Luis
title Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_short Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_fullStr Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full_unstemmed Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_sort exploración dirigida por el objetivo en aprendizaje por refuerzo basado en modelo para ambientes no estacionarios
publishDate 2001
url http://sedici.unlp.edu.ar/handle/10915/23400
work_keys_str_mv AT errecaldemarceloluis exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios
AT muchutalfredo exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios
bdutipo_str Repositorios
_version_ 1764820465883283458