Los métodos de TD combinan las ventajas de los dos anteriores: permite hacer bootstrapping (como DP) y no requiere tener un modelo del ambiente (como MC).
Métodos tipo TD sólo tienen que esperar el siguiente paso.
TD usan el error o diferencia entre predicciones sucesivas (en lugar del error entre la predicción y la salida final) aprendiendo al existir cambios entre predicciones sucesivas.
Ventajas:
El más simple TD(0) es:
El algoritmo de TD(0) viene descrito en la tabla 11.6.
La actualización de valores tomando en cuenta la acción sería:
y el algoritmo es prácticamente el mismo, solo que se llama SARSA, y viene descrito en la tabla 11.7.
Uno de los desarrollos más importantes en aprendizaje por refuerzo fué el desarrollo de un algoritmo ``fuera-de-política'' (off-policy) conocido como Q-learning.
La idea principal es realizar la actualización de la siguiente forma
(Watkins, 89):
El algoritmo viene descrito en la tabla 11.8.