Están entre métodos de Monte Carlo y TD de un paso.
Los métodos Monte Carlo realizan la actualización considerando la secuencia completa de recompensas observadas.
La actualización de los métodos de TD la hacen utilizando únicamente la siguiente recompensa.
La idea de las trazas de elegibilidad es considerar las recompensas de estados posteriores (o afectar a anteriores).
Si recordamos:
Lo que se hace en TD es usar:
Sin embargo, hace igual sentido hacer:
En la práctica, más que esperar pasos para actualizar (forward view), se realiza al revés (backward view). Se guarda información sobre los estados por los que se pasó y se actualizan hacia atrás las recompensas (descontadas por la distancia). Se puede probar que ambos enfoques son equivalentes.
Para implementar la idea anterior, se asocia a cada estado o par estado-acción una variable extra, representando su traza de elegibilidad (eligibility trace) que denotaremos por o .
Este valor va decayendo con la longitud de la traza creada en cada episodio. La figura 11.3 muestra este comportamiento.
Para :
Para SARSA se tiene lo siguiente:
El algoritmo para viene descrito en la tabla 11.9.
Para Q-learning como la selección de acciones se hace, por ejemplo, siguiendo una política greedy, se tiene que tener cuidado, ya que a veces los movimientos, son movimientos exploratorios.
Aquí se puede mantener historia de la traza solo hasta el primer movimiento exploratorio, ignorar las acciones exploratorias, o hacer un esquema un poco más complicado que considera todas las posibles acciones en cada estado.