En esta sección queremos contestar estas preguntas:
- Dada una hipótesis
y una muestra de datos
con
ejemplos tomados aleatoriamente siguiendo
la distribución de probabilidad
, Cuál es
el mejor estimado de la precisión de
sobre
instancias futuras tomadas con la misma
distribución?
- Cuál es el error probable en este estimado
de precisión?
Necesitamos entender dos nociones de precisión
o error:
- Tasa de error de la hipótesis sobre la muestra
disponible, que es lo que podemos calcular
- Tasa de error de la hipótesis sobre toda la
distribución desconocida
de ejemplos,
que es lo que quisiéramos calcular
El error de muestra para la hipótesis
con respecto
a la función
se define como:
-
es el número de ejemplos en
-
es 1 si
y 0 de otro modo
El error verdadero de una hipótesis es la probabilidad
de que se equivoque para una instancia tomada aleatoriamente
con la distribución
y se define como:
-
denota que la probabilidad se
toma sobre la instancia de distribución
Lo que quisieramos conocer es el error verdadero
de la hipótesis.
Sin embargo, lo que podemos medir es el error de muestra
porque sólo tenemos una muestra de los datos
disponible.
Ahora surge la pregunta:
- Qué tan buen estimador es
de
?
Para saberlo, vamos a utilizar el concepto de intervalos de confianza
pruebas de hipótesis.
Eduardo Morales
2009-04-17