next up previous
Next: 11.3 Trazas de Elegibilidad Up: 11.2 Métodos de Solución Previous: 11.2.2 Monte Carlo

11.2.3 Diferencias Temporales (Temporal Difference)

Los métodos de TD combinan las ventajas de los dos anteriores: permite hacer bootstrapping (como DP) y no requiere tener un modelo del ambiente (como MC).

Métodos tipo TD sólo tienen que esperar el siguiente paso.

TD usan el error o diferencia entre predicciones sucesivas (en lugar del error entre la predicción y la salida final) aprendiendo al existir cambios entre predicciones sucesivas.

Ventajas:

El más simple TD(0) es:

\begin{displaymath}V(s_t) \leftarrow V(s_t) + \alpha \left[ r_{t+1} + \gamma
V(s_{t+1}) - V(s_t) \right] \end{displaymath}

El algoritmo de TD(0) viene descrito en la tabla 11.6.


Tabla 11.6: Algoritmo TD(0).
\begin{table}
\begin{tabbing}
123\=123\= \kill
Inicializa $V(s)$\ arbitrariament...
...> $s \leftarrow s'$\ \\
\> hasta que $s$\ sea terminal
\end{tabbing}\end{table}


La actualización de valores tomando en cuenta la acción sería:


y el algoritmo es prácticamente el mismo, solo que se llama SARSA, y viene descrito en la tabla 11.7.


Tabla 11.7: Algoritmo SARSA.
\begin{table}
\begin{tabbing}
123\=123\= \kill
Inicializa $Q(s,a)$\ arbitrariame...
...; $a \leftarrow a'$; \\
\> hasta que $s$\ sea terminal
\end{tabbing}\end{table}


Uno de los desarrollos más importantes en aprendizaje por refuerzo fué el desarrollo de un algoritmo ``fuera-de-política'' (off-policy) conocido como Q-learning.

La idea principal es realizar la actualización de la siguiente forma (Watkins, 89):

\begin{displaymath}Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [ r_{t+1} + \gamma
max_a Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t)] \end{displaymath}

El algoritmo viene descrito en la tabla 11.8.


Tabla 11.8: Algoritmo Q-Learning.
\begin{table}
\begin{tabbing}
123\=123\= \kill
Inicializa $Q(s,a)$\ arbitrariame...
...> $s \leftarrow s'$; \\
\> hasta que $s$\ sea terminal
\end{tabbing}\end{table}



next up previous
Next: 11.3 Trazas de Elegibilidad Up: 11.2 Métodos de Solución Previous: 11.2.2 Monte Carlo
Eduardo Morales Manzanares 2004-11-02