Manuel Montes-y-Gómez Ph.D.

National Institute of Astrophysics, Optics and Electronics - Mexico

Recuperacion de Información

Instructores:

Dr. Manuel Montes y Gómez
mmontesg(at)inaoep(dot)mx
Oficina: 8218
Dr. Aurelio López López
allopez(at)inaoep(dot)mx
Oficina: 8314
Dra. Irazú Hernández Farias
dirazuhf(at)inaoep(dot)mx
Oficina: 8323

Horario:
Martes y jueves, de 10:30 a 12:00

Descripción del curso:

Este curso provee un panorama general de la tarea de recuperación de información. En particular se enfoca en presentar algunos enfoques orientados a mejorar el desempeño de la recuperación de información, tales como el indexado basado en "word embeddings", la fusión de información, y el aprendizaje del ordenamiento. También, en la parte final del curso, se introducen algunas subtareas y aplicaciones importantes, tal es el caso de la recuperación multilíngüe y la búsqueda de respuestas.

El curso presenta un enfoque teórico-práctico, que considera la asignación de ejercicios (para programar) y la presentación de trabajos del estando del arte. El objetivo es construir de manera incremental un pequeño sistema de IR donde se pongan en práctica varios de los conceptos aprendidos.


Evaluación:

  • 10% participación en clase
  • 20% tareas (ejercicios)
  • 30% presentación de artículos
  • 40% proyecto (presentación y reporte como artículo)


Temas: (las diapositivas están en inglés)

  1. Introduction to information retrieval
    • Definition of the task
    • Vector space model
    • Performance evaluation
    • Main problems and basic solutions
  2. Beyond word-based representations
    • Indexing with POS tags
    • Indexing with phrases
    • Indexing by senses
    • Concept-based IR (DOR and TCOR representations)
    • Latent semantic analysis (LSA)
  3. NN-based representations
    • Non-contextualized word emebddings in IR
    • Contextualized word emebddings in IR
    • Using large language models in IR
  4. Robust information retrieval
    • Robust information retrieval
    • Query performance prediction
    • Methods for information fusion
    • Context-based information retrieval
  5. Application tasks
    • Spoken document retrieval
    • Geographic information retrieval
    • Question answering

Tareas

  • La descripción de las tareas se pueden consultar aquí.
  • Todas las tareas se programarán en PYTHON. Se entregarán por email, anexando código e impresión de la salida.
  • Se recomienda bajar el libro Natural Language Processing with Python

Lecturas

Seleccionar DOS papers de los que se listan en la carpeta compartida, y preparar una presentación de máximo 15 min., incluyendo la motivación de la investigación, la descripción de sus principales ideas, sus resultados y una discusión de sus ventajas y desventajas. Terminar explicando cómo se extendería ese trabajo o cómo se usaría para otro propósito.

web development by bryant smith