Una implementación paralela del algoritmo de Q-Learning basada en un esquema de comunicación con caché
Q-Learning es un método de Aprendizaje por Refuerzo que permite resolver problemas de decisión secuencial en los cuales la utilidad de una acción depende de una secuencia de decisiones y donde además existe incertidumbre en cuanto a las dinámicas del ambiente en que está situado el agente. Este marc...
Guardado en:
| Autores principales: | , , |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Español |
| Publicado: |
2000
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/23363 |
| Aporte de: |
| Sumario: | Q-Learning es un método de Aprendizaje por Refuerzo que permite resolver problemas de decisión secuencial en los cuales la utilidad de una acción depende de una secuencia de decisiones y donde además existe incertidumbre en cuanto a las dinámicas del ambiente en que está situado el agente. Este marco general de trabajo ha permitido aplicar Q-Learning y otros métodos de Aprendizaje por Refuerzo a una amplia gama de problemas del mundo real de considerable complejidad, como por ejemplo navegación de robots, manufacturación industrial, juegos, control de ascensores, etc.
A pesar de las características interesantes de Q-Learning, uno de sus principales problemas es que es un método lento, ya que el agente requiere un tiempo considerable de entrenamiento para aprender una política aceptable.
A los fines de solucionar, o al menos atenuar este problema, este trabajo propone un modelo de implementación paralela de Q-Learning manteniendo una representación tabular, y utilizando un esquema de comunicación basada en caché.
Este modelo es aplicado en un problema particular, reportándose los resultados obtenidos con distintas configuraciones de procesadores y analizándose las ventajas y limitaciones actuales del enfoque |
|---|