Next: About this document ...
Up: 11. Aprendizaje por Refuerzo
Previous: 11.6 Aplicaciones a Juegos
Uno de los problemas principales de las técnicas usadas en
aprendizaje por refuerzo, y para resolver MDP en general, es la
aplicación a espacios grandes (muchos estados y acciones).
Aunque el algoritmo converge en teoría, en la práctica puede tomar
un tiempo inaceptable.
Dentro de los enfoques que atacan, en parte, esta problemática,
podemos mencionar:
- Agregación de estados, en donde se juntan estados ``parecidos'' y a
todos ellos se les asigna el mismo valor, reduciendo con esto el
espacio de estados. Algunos ejemplos de esto son: tile-coding, coarse
coding, radial basis functions, Kanerva coding, y soft-state
aggregation.
- Abstracciones basadas en máquinas de estado finito, en donde el
aprendizaje por refuerzo tiene que decidir que máquina utilizar (por
ejemplo, HAM y PHAM).
- Definición de jerarquías, en donde se divide el espacio en
subproblemas, se aprenden políticas a los espacios de más bajo nivel
y estas se usan para resolver problemas de más alto nivel (e.g.,
MAXQ, HEXQ).
Algo parecido se usa con Macros y Options, en donde se aprenden
políticas de subespacios que se usan para resolver problemas mas
grandes.
- Otra opción es utilizar un sistema de planificación que decida la
secuencias de submetas que se tienen que cumplir para resolver cierto
problema (por ejemplo usando TOPs) y después aprender por aprendizaje
por refuerzo las acciones a realizar para resolver cada submeta (e.g.,
RL-TOP).
- También se ha buscado utilizar representaciones relacionales dentro
de aprendizaje por refuerzo, ya sea para representar las funciones de
valor y/o para representar los estados y las acciones.
- También se han utilizado soluciones conocidas como guías o
trazas que se usan para aprender más rápidamente las funciones
de valor o para aprender un subconjunto de acciones relevantes.
Next: About this document ...
Up: 11. Aprendizaje por Refuerzo
Previous: 11.6 Aplicaciones a Juegos
Eduardo Morales Manzanares
2004-11-02