En general, las acciones del agente determinan, no sólo la recompensa inmediata, sino también (por lo menos en forma probabilística) el siguiente estado del ambiente.
Los problemas con refuerzo diferido se pueden modelar como procesos de decisión de Markov (MDPs).
El modelo es Markoviano si las transiciones de estado no dependen de estados anteriores.
En aprendizaje por refuerzo se asume que se cumple con la propiedad
Markoviana y las probabilidades de transición están dadas por:
Lo que se busca es estimar las funciones de valor. Esto es, qué tan bueno es estar en un estado (o realizar una acción).
La noción de ``qué tan bueno'' se define en términos de recompensas futuras o recompensas esperadas.
La política 
 es un mapeo de cada estado 
 y acción
 a la probabilidad 
 de tomar la
acción 
 estando en estado 
. El valor de un estado 
 bajo
la política 
, denotado como 
, es el refuerzo
esperado estando en estado 
 y siguiendo la política 
.
Este valor esperado se puede expresar como:
Las funciones de valor óptimas se definen como:
Las cuales se pueden expresar como las ecuaciones de optimalidad de Bellman: