Next: 11.2.1 Programación Dinámica Up: 11. Aprendizaje por Refuerzo Previous: 11.1.2 Recompensa diferida y

11.2 Métodos de Solución de MDPs

Existen tres formas principales de resolver MDPs: (i) usando métodos de programación dinámica, usando métodos de Monte Carlo, y (iii) usando métodos de diferencias temporales o de aprendizaje por refuerzo.

Subsections

11.2.1 Programación Dinámica
11.2.2 Monte Carlo
11.2.3 Diferencias Temporales (Temporal Difference)

Eduardo Morales Manzanares 2004-11-02