next up previous
Next: 11.1.1 Modelos de Comportamiento Up: 11. Aprendizaje por Refuerzo Previous: 11. Aprendizaje por Refuerzo

11.1 Introducción

Uno de los enfoques más usados dentro de aprendizaje es el aprendizaje supervisado a partir de ejemplos (pares entradas - salida provistos por el medio ambiente), para después predecir la salida de nuevas entradas.

Cualquier sistema de predicción puede verse dentro de este paradigma, sin embargo, ignora la estructura secuencial del mismo.

En algunos ambientes, muchas veces se puede obtener sólo cierta retroalimentación o recompensa o refuerzo (e.g., gana, pierde).

El refuerzo puede darse en un estado terminal y/o en estados intermedios.

Los refuerzos pueden ser componentes o sugerencias de la utilidad actual a maximizar (e.g., buena movida).

En aprendizaje por refuerzo (RL) el objetivo es aprender cómo mapear situaciones a acciones para maximizar una cierta señal de recompensa.

Promesa: programar agentes mediante premio y castigo sin necesidad de especificar cómo realizar la tarea.

Diferencias con otro tipo de aprendizaje:

En RL un agente trata de aprender un comportamiento mediante interacciones de prueba y error en un ambiente dinámico e incierto.

En general, al sistema no se le dice qué acción debe tomar, sino que él debe de descubrir qué acciones dan el máximo beneficio.

En un RL estandar, un agente está conectado a un ambiente por medio de percepción y acción (ver figura 11.1). En cada interacción el agente recibe como entrada una indicación de su estado actual ($s \in S$) y selecciona una acción ($a \in A$). La acción cambia el estado y el agente recibe una señal de refuerzo o recompensa ( $r \in {\cal R}$).

Figura 11.1: Aprendizaje por Refuerzo.
\begin{figure}\centerline{\hbox{
\psfig{figure=modelorl.ps,height=6cm}
}}
\end{figure}

El comportamiento del agente debe de ser tal que escoga acciones que tiendan a incrementar a largo plazo la suma de las recompensas totales.

El objetivo del agente es encontrar una política ($\pi$), que mapea estados a acciones que maximice a largo plazo el refuerzo.

En general el ambiente es no-determinístico (tomar la misma acción en el mismo estado puede dar resultados diferentes).

Sin embargo, se asume que el ambiente es estacionario (esto es, las probabilidades de cambio de estado no cambian o cambian muy lentamente).

Figura 11.2: Ejemplo de problema.
\begin{figure}\centerline{\hbox{
\psfig{figure=gridwld.ps,height=6cm}
}}\end{figure}

Aspectos importantes: (i) se sigue un proceso de prueba y error, y (ii) la recompensa puede estar diferida.

Otro aspecto importante es el balance entre exploración y explotación. Para obtener buena ganancia uno prefiere seguir ciertas acciones, pero para saber cuáles, se tiene que hacer cierta exploración. Muchas veces depende de cuánto tiempo se espera que el agente interactue con el medio ambiente.

La caracterización de esta problemática está dada por procesos de decisión de Markov o MDP.

Un MDP modela un problema de decisión sequencial en donde el sistema evoluciona en el tiempo y es controlado por un agente.

La dinámica del sistema esta determinada por una función de transición de probabilidad que mapea estados y acciones a otros estados.

Formalmente, un MDP es una tupla $M= <S, A, \Phi, R>$. Los elementos de un MDP son:



Subsections
next up previous
Next: 11.1.1 Modelos de Comportamiento Up: 11. Aprendizaje por Refuerzo Previous: 11. Aprendizaje por Refuerzo
Eduardo Morales Manzanares 2004-11-02