Se utiliza cuando queremos clasificar una instancia descrita por un
conjunto de atributos (
's) en un conjunto finito de clases
(
).
Clasificar un nuevo ejemplo de acuerdo con el valor más probable dados los valores de sus atributos.
Usando Bayes:
se puede estimar con la frecuencia de las clases, pero para
tenemos muy pocos elementos. El
clasificador Bayesiana naive, también llamado a veces idiot Bayes, asume que los valores de los atributos son
condicionalmente independientes dado el valor de la clase.
Osea:
Por lo que:
Los valores
se estiman con la frecuencia de los
datos observados.
Nota: no se hace búsqueda de hipótesis, simplemente se cuentan frecuencias de ocurrencias.
Ejemplo:
Si tomamos el ejemplo de la tabla 2.2 (de jugar golf), supongamos que tenemos el siguiente ejemplo que lo queremos clasificar con un naive Bayes:
Que normalizando nos da:
.
Estimación de Probabilidades
Hasta ahora hemos asumido que la probabilidad de un evento se puede
estimar por su frecuencia (
).
A pesar de ser una buena aproximación, da estimaciones malas cuando tenemos pocos ejemplos.
Una alternativa es utilizar la estimación
(m-estimate):
donde
es una estimación a priori de lo que queremos
estimar y
es una constante llamada ``tamaño de muestra
equivalente'' (equivalent sample size).
Una valor típico para
es asumir que se tiene una
distribución uniforme, por lo que:
cuando
existen
posibles valores.
también se usa como estimador de ruido.
Ejemplo
Podemos usar un clasificador Bayesiano naive para aprender a clasificar textos de acuerdo a las preferencias de un usuario.
Suponemos que los ejemplos son documentos en texto asociados con una clase (e.g., me interesa y no me interesa, o política, deportes, espectáculos, sociales, etc.). Suponiendo que las palabras son idependientes entre sí y de su posición en el texto (lo cual no es cierto, pero de todos modos se tienen buenos resultados):
Vocabulario = todas las palabras distintivas (eliminando palabras muy comunes y poco distintivas como artículos, puntuaciones, etc.)
Para cada clase:
= subconjunto de textos de esa clase
Texto = concatenación de todos los textos en
= número de palabras distintas en Texto
Para cada palabra (
) en Vocabulario:
= número de veces que aparece la palabra
en Texto
(se calcula la probabilidad considerando el estimador
,
con probabilidad uniforme en las clases (Laplace) y
Para clasificar un nuevo documento (considerando solo las palabras en el nuevo documento que teniamos en Vocabulario):
Eduardo Morales 2009-04-17