Main

Recuperacion De Informacion

CURSO 2017

Instructores:

Dr. Manuel Montes y Gómez
mmontesg(at)inaoep(dot)mx
Oficina: 8218

Dr. Aurelio López López
allopez(at)inaoep(dot)mx
Oficina: 8314

Horario de clases:
Lunes y miércoles, salón 8301, de 10:30 a 12:00

Descripción del curso:

Este curso provee un panorama general de la tarea de recuperación de información. En particular se enfoca en presentar algunos enfoques orientados a mejorar el desempeño de la recuperación de información, tales como el indexado basado en sentidos, la fusión de información, y el aprendizaje de ordenamiento. También, en la parte final del curso, se introducen algunas subtareas y aplicaciones importantes, tal es el caso de la recuperación de información geográfica, la recuperación multilíngüe y la búsqueda de respuestas.

El curso presenta un enfoque teórico-práctico, que considera la asignación de ejercicios (para programar) cada dos semanas. El objetivo es contruir de manera incremental un pequeño sistema de IR donde se pongan en práctica varios de los conceptos aprendidos. Asimismo considera tres sesiones donde los estudiantes tendrán que exponer trabajos del estado del arte.

Los asistentes del curso serán: Pastor López y Miguel Ángel Álvarez (oficina 8309)

Evaluación:

  • 40% participación en clase
  • 40% tareas (entrega de ejercicios)
  • 20% presentación de artículos

Temas: (las diapositivas están en inglés)

  1. Introduction to information retrieval
    • Definition of the task
    • Vector space model
    • Performance evaluation
    • Main problems and basic solutions
  2. Beyond word-based representations
    • Indexing with POS tags
    • Indexing with phrases
    • Indexing by senses
    • Concept-based IR (DOR and TCOR representations)
    • Latent semantic analysis (LSA)
  3. Robust information retrieval
    • Robust information retrieval
    • Query performance prediction
    • Methods for information fusion
    • Context-based information retrieval
  4. Application tasks
    • Spoken document retrieval
    • Geographic information retrieval
    • Question answering

Tareas:


Tarea 1:
Fecha de entrega: viernes 27 de enero
Para dos colecciones (CACM y algún otra) obtener su vocabulario, y para cada palabra medir lo siguiente: a) frecuencia - número de veces que ocurre en colección; b) frecuencia de documento - número de documentos en los que aparece. Imprimir el 10% de palabras más frecuentes para ambos casos

Tarea 2: Fecha de entrega: viernes 10 de febrero
Para la colección CACM, construir representación (docs X términos) con pesado Booleano, TF, y TF-IDF. Además programar medida de similitud del coseno y, para los 3 primeros documentos, imprimir los 5 títulos más semejantes dentro de la colección, con cada uno de los pesados.