Supongamos que medimos el error de un clasificador con datos de prueba, y nos da 25%. Lo que nos gustaria saber es qué tan confiable es esa estimación.
Si obtenemos eso con 100 datos o con 10,000 claramente le vamos a creer más a la estimación con los 10,000 datos.
En estadística, un conjunto de eventos independientes se conoce como un proceso Bernoulli (e.g., lanzar una moneda).
Podemos pensar en el porcentage de éxito, por lo que queremos saber es qué tanto se acerca ese 75% de éxito al verdadedo porcentage de éxito.
Esto se expresa normalmente con intervalos de confianza.
Para 750 éxitos de 1,000 pruebas se tiene un 80% de confianza de que el verdadero porcentage de éxito este entre 73.3% y 76.8%.
Para 75 éxitos de 100 pruebas el mismo 80% de confianza tiene un intervalo de 70% y 81%.
La media y la varianza de un proceso Bernoulli con porcentage de
éxito
son
y
respectivamente.
Para N pruebas del proceso Bernoulli el porcentage de éxito es
(
= número de éxitos), y la varianza se reduce por un
factor
a
El valor de éxito se puede tomar como una variable aleatoria, con su media y su varianza.
La probabilidad de que una variable aleatoria con media cero esté en
un intervalo de confianza de tamaño
es
.
Para una distribución normal los valores de
y de
están
dados en tablas (ver tabla 2.3) que expresan la
probabilidad de que
sea mayor a
(
).
| 0.1% | 3.09 |
| 0.5% | 2.58 |
| 1% | 2.33 |
| 5% | 1.65 |
| 10% | 1.28 |
| 20% | 0.84 |
| 40% | 0.25 |
Las tablas nos dan sólo una mitad, pero al ser simétrica la distribución normal podemos considerar la mitad del intervalo que queremos y ese buscarlo en la tabla.
Las tablas asumen que se tiene una media 0 y varianza de 1 (
nos
mide las desviaciones estandar fuera de la media).
Osea que para un 5% nos dice que existe un 5% que la variable
se
encuentre a más de 1.65 desviaciones estandar arriba de la media, o un
10% que esté 1.65 desviaciones estandar (arriba o abajo) de la media.
Para cambiar a una media 0 y varianza 1 tenemos que restar la media
y dividirlo por la deviación estandar
. Esto nos
da:
Para esto dado un nivel de confiaza
le restamos 1 y dividimos el
resultado entre 2 y consultamos la tabla.
Tenemos que encontrar una expresión para
. Después de cierta
matemática nos queda:
Esto nos da dos valores uno pesimista y otro optimista.
La distribución normal es válida sólo para valores grandes
de
(e.g.,
).
Regresando a la poda de árboles. Como ya vimos, una forma es guardar datos y usarlos para estimar estos errores. Otra posibilidad es usar los mismos datos de entrenamiento para esta estimación, que es lo que hace C4.5.
El usar un estimado de éxito
o de error
es lo de menos,
. Como los valores obtenidos son de los datos de entrenamiento
se usa el valor pesimista que nos da:
Para ver como funciona esto, supongamos que tenemos el subárbol de la figura 2.4.
Usamos
= 25% (
= 0.69). Para la rama izquierda tenemos 2 éxitos
de 6 casos, lo cual nos da una
, Poniendo esto en la fórmula
nos da
(aquí se ve la parte pesimista ya que en lugar un
33% nos da un 47%). Para la rama de enmedio, tenemos 1 éxito de 2,
lo cual nos da
. La rama de la derecha es igual a la izquierda.
La combinación de estos valores tomando en cuenta el porcentage de ejemplos de cada uno, nos da 0.51.
Ahora para la clase mayoritaria del nodo tenemos
lo cual nos
da
, que como es menor, entonces podamos esa rama.
Al cambiar el criterio de paro, podemos tener hojas con ejemplos de diferentes clases. Posibles soluciones:
En general con poco nivel de ruido, se comportan bien. No conviene quitarle ruido a los datos si se van a probar en ambientes ruidosos.
Análisis de Complejidad:
La complejidad de contruir un árbol es:
Donde
es el número de datos y
el número de atributos.
El primer término se refiere a construir un árbol de decisión sin considerar podado. El segundo término se refiere cuando realizamos podado. Esto es independiente de que los atributos sean continuos o no.
Eduardo Morales 2009-04-17