next up previous
Next: 11.1.2 Recompensa diferida y Up: 11.1 Introducción Previous: 11.1 Introducción

11.1.1 Modelos de Comportamiento Óptimo

Dado un estado $s_t \in S$ y una acción $a_t \in
{\cal A}(s_t)$, el agente recibe una recompensa $r_{t+1}$ y se mueve a un nuevo estado $s_{t+1}$.

El mapeo de estados a probabilidades de seleccionar una acción particular es su política ($\pi_t$). Aprendizaje por refuerzo especifica cómo cambiar la política como resultado de su experiencia.

No trata de maximizar la recompensa inmediata, sino la recompensa a largo plazo (acumulada).

La recompensa debe de mostrar lo que queremos obtener y se calcula por el ambiente.

Si las recompensas recibidas después de un tiempo $t$ se denotan como: $r_{t+1}$, $r_{t+2}$, $r_{t+3}$, $\ldots$, lo que queremos es maximizar lo que esperamos recibir de recompensa ($R_t$) que en el caso más simple es:

\begin{displaymath}R_t = r_{t+1} + r_{t+2} + r_{t+3} + \ldots + r_T \end{displaymath}

Si se tiene un punto terminal se llaman tareas episódicas, si no se tiene se llaman tareas continuas. En este último caso, la fórmula de arriba presenta problemas, ya que no podemos hacer el cálculo cuando $T$ no tiene límite.

Podemos usar una forma alternativa en donde se van haciendo cada vez más pequeñas las contribuciones de las recompensas más lejanas:

\begin{displaymath}R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots =
\sum_{k=0}^{\infty} \gamma^k r_{t+k+1} \end{displaymath}

donde $\gamma$ se conoce como la razón de descuento y está entre: $0 \leq \gamma < 1$

Si $\gamma = 0$ se trata sólo de maximizar tomando en cuenta las recompensas inmediatas.

En general, podemos pensar en los siguientes modelos:

  1. Horizonte finito: el agente trata de optimizar su recompensa esperada en los siguientes $h$ pasos, sin preocuparse de lo que ocurra despues:

    \begin{displaymath}E(\sum_{t=0}^h r_t) \end{displaymath}

    donde $r_t$ significa la recompensa recibida $t$ pasos en el futuro.

    Este modelo se puede usar de dos formas: (i) política no estacionaria: donde en el primer paso se toman los $h$ siguientes pasos, en el siguiente los $h-1$, etc., hasta terminar. El problema principal es que no siempre se conoce cuántos pasos considerar. (ii) receding-horizon control: siempre se toman los siguientes $h$ pasos.

  2. Horizonte infinito: las recompensas que recibe un agente son reducidas geométricamente de acuerdo a un factor de descuento $\gamma$ ( $0 \leq \gamma \leq 1$):

    \begin{displaymath}E(\sum_{t=0}^{\infty} \gamma^t r_t) \end{displaymath}

  3. Recompensa promedio: optimizar a largo plazo la recompensa promedio:

    \begin{displaymath}lim_{h \rightarrow \infty} E(\frac{1}{h} \sum_{t=0}^h r_t) \end{displaymath}

    Problema: no hay forma de distinguir políticas que reciban grandes recompensas al principio de las que no.

En general, se utiliza la de horizonte infinito.


next up previous
Next: 11.1.2 Recompensa diferida y Up: 11.1 Introducción Previous: 11.1 Introducción
Eduardo Morales Manzanares 2004-11-02