Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre...
Guardado en:
Autores principales: | , |
---|---|
Formato: | Objeto de conferencia |
Lenguaje: | Español |
Publicado: |
2001
|
Materias: | |
Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/23400 |
Aporte de: |
id |
I19-R120-10915-23400 |
---|---|
record_format |
dspace |
institution |
Universidad Nacional de La Plata |
institution_str |
I-19 |
repository_str |
R-120 |
collection |
SEDICI (UNLP) |
language |
Español |
topic |
Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística |
spellingShingle |
Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística Errecalde, Marcelo Luis Muchut, Alfredo Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
topic_facet |
Ciencias Informáticas ARBM (Aprendizaje por Refuerzo Basado en Modelo) Intelligent agents Learning aprendizaje por refuerzo ARTIFICIAL INTELLIGENCE modelos arquitectura Dyna heurística |
description |
El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original. |
format |
Objeto de conferencia Objeto de conferencia |
author |
Errecalde, Marcelo Luis Muchut, Alfredo |
author_facet |
Errecalde, Marcelo Luis Muchut, Alfredo |
author_sort |
Errecalde, Marcelo Luis |
title |
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
title_short |
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
title_full |
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
title_fullStr |
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
title_full_unstemmed |
Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios |
title_sort |
exploración dirigida por el objetivo en aprendizaje por refuerzo basado en modelo para ambientes no estacionarios |
publishDate |
2001 |
url |
http://sedici.unlp.edu.ar/handle/10915/23400 |
work_keys_str_mv |
AT errecaldemarceloluis exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios AT muchutalfredo exploraciondirigidaporelobjetivoenaprendizajeporrefuerzobasadoenmodeloparaambientesnoestacionarios |
bdutipo_str |
Repositorios |
_version_ |
1764820465883283458 |