Hasta ahora hemos asumido que se tiene una representación explícita en forma de tabla (i.e., una salida por cada tupla de entradas). Esto funciona para epacios pequeños, pero es impensable para dominios como ajedrez () o backgammon ().
Una forma de hacerlo es con una representación implícita, i.e., una función.
Por ejemplo en juegos, una función de utilidad estimada se puede
representar como una función lineal pesada sobre un conjunto de
atributos ('s):
La compresión lograda por una representación implícita permite al sistema de aprendizaje, generalizar de estados visitados a estados no visitados.
Por otro lado, puede que no exista tal función. Como en todos los sistemas de aprendizaje, existe un balance entre el espacio de hipótesis y el tiempo que toma aprender una hipótesis aceptable.
Muchos sistemas de aprendizaje supervisado tratan de minimizar el error cuadrado (MSE) bajo cierta distribución P de las entradas.
Si
representa el vector de parámetros de la
función parametrizada que queremos aprender:
donde es una distribución pesando los errores de diferentes estados.
Para ajustar los parámetros del vector de la función que queremos optimizar, las técnicas de gradiente ajustan los valores en la dirección que produce la máxima reducción en el error:
donde es un parámetro positivo y denota un vector de derivadas parciales.
Como no sabemos lo tenemos que aproximar.
Podemos hacerlo con trazas de elegibilidad y actualizar la función
como sigue: