next up previous
Next: 11.2.1 Programación Dinámica Up: 11. Aprendizaje por Refuerzo Previous: 11.1.2 Recompensa diferida y

11.2 Métodos de Solución de MDPs

Existen tres formas principales de resolver MDPs: (i) usando métodos de programación dinámica, usando métodos de Monte Carlo, y (iii) usando métodos de diferencias temporales o de aprendizaje por refuerzo.



Subsections

Eduardo Morales Manzanares 2004-11-02