Existen tres formas principales de resolver MDPs: (i) usando métodos de programación dinámica, usando métodos de Monte Carlo, y (iii) usando métodos de diferencias temporales o de aprendizaje por refuerzo.