Dado un estado y una acción
, el agente recibe una recompensa
y se mueve a
un nuevo estado
.
El mapeo de estados a probabilidades de seleccionar una acción
particular es su política (). Aprendizaje por refuerzo
especifica cómo cambiar la política como resultado de su
experiencia.
No trata de maximizar la recompensa inmediata, sino la recompensa a largo plazo (acumulada).
La recompensa debe de mostrar lo que queremos obtener y se calcula por el ambiente.
Si las recompensas recibidas después de un tiempo se denotan
como:
,
,
,
, lo que queremos es
maximizar lo que esperamos recibir de recompensa (
) que en el
caso más simple es:
Si se tiene un punto terminal se llaman tareas episódicas, si
no se tiene se llaman tareas continuas. En este último caso,
la fórmula de arriba presenta problemas, ya que no podemos hacer el
cálculo cuando no tiene límite.
Podemos usar una forma alternativa en donde se van haciendo cada vez
más pequeñas las contribuciones de las recompensas más lejanas:
Si se trata sólo de maximizar tomando en cuenta las
recompensas inmediatas.
En general, podemos pensar en los siguientes modelos:
Este modelo se puede usar de dos formas: (i) política no
estacionaria: donde en el primer paso se toman los siguientes
pasos, en el siguiente los
, etc., hasta terminar. El problema
principal es que no siempre se conoce cuántos pasos considerar. (ii)
receding-horizon control: siempre se toman los siguientes
pasos.
En general, se utiliza la de horizonte infinito.