Las funciones de distancia las podemos clasificar en:
- Funciones globales: se usa la misma función de distancia en
todo el espacio.
- Funciones basadas en el query. Los parámetros de la
función de distancia se ajustan con cada query, típicamente
minimizando el error con validación cruzada.
- Funciones basadas en puntos. Cada dato tiene asopciado su propia
función de distancia
El cambiar/ajustar la función de distancia puede mejorar las
predicciones.
Las funciones de distancia típicas para datos continuos son:
- Euclideana
- Euclideana pesada diagonalmente
donde
es el factor de escala en la dimensión
y M
es una matriz diagonal con
.
- Euclideana completa o Mahalanobis
donde M puede ser arbitraria.
- Normal o Minkowski
- Normal pesada diagonal o completa. Igual que la Minkowski pero
incluyendo pesos.
Matrices (M) diagonales hacen escalas radiales
simétricas. Se pueden crear elipses con orientaciones arbitrarias
incluyendo otras elementos fuera de la diagonal.
También se puede incluir un rango o escala en donde aplicar la
función de generalización. Algunas opciones son:
- Selección de ancho de banda fijo.
es un valor constante,
por lo que se usan valores constantes de datos y forma.
- Selección de los vecinos más cervanos.
se pone como la
distancia a los
vecinos más cercanos y el volúmen de datos
cambia de acuerdo a la densidad de los datos más cercanos.
- Selección de banda global.
se ajusta globalmente por un
proceso de optimización.
- Basado en el query.
se selecciona de acuerdo al
query siguiendo un proceso de optimización.
- Basada en puntos. Cada dato tiene asociado su propia
.
Eduardo Morales
2009-04-17