Main

Recuperacion De Informacion

CURSO 2019

Instructores:

Dr. Manuel Montes y Gómez
mmontesg(at)inaoep(dot)mx
Oficina: 8218

Dr. Aurelio López López
allopez(at)inaoep(dot)mx
Oficina: 8314

Horario de clases:
Martes y jueves, salón 8301, de 10:30 a 12:00

Descripción del curso:

Este curso provee un panorama general de la tarea de recuperación de información. En particular se enfoca en presentar algunos enfoques orientados a mejorar el desempeño de la recuperación de información, tales como el indexado basado en sentidos, la fusión de información, y el aprendizaje de ordenamiento. También, en la parte final del curso, se introducen algunas subtareas y aplicaciones importantes, tal es el caso de la recuperación de información geográfica, la recuperación multilíngüe y la búsqueda de respuestas.

El curso presenta un enfoque teórico-práctico, que considera la asignación de ejercicios (para programar) cada dos semanas. El objetivo es construir de manera incremental un pequeño sistema de IR donde se pongan en práctica varios de los conceptos aprendidos. Asimismo considera tres sesiones donde los estudiantes tendrán que exponer trabajos del estado del arte.

Evaluación:

  • 10% participación en clase
  • 30% tareas (ejercicios) y quizzes
  • 20% presentación de artículos
  • 40% proyecto final reportado como artículo

++++ NUEVO: Ideas para proyectos ++++

Temas: (las diapositivas están en inglés)

  1. Introduction to information retrieval
    • Definition of the task
    • Vector space model
    • Performance evaluation
    • Main problems and basic solutions
  2. Beyond word-based representations
    • Indexing with POS tags
    • Indexing with phrases
    • Indexing by senses
    • Concept-based IR (DOR and TCOR representations)
    • Latent semantic analysis (LSA)
  3. Robust information retrieval
    • Robust information retrieval
    • Query performance prediction
    • Methods for information fusion
    • Context-based information retrieval
  4. Application tasks
    • Spoken document retrieval
    • Geographic information retrieval
    • Question answering

Tareas


Tarea 1:
Fecha de entrega: viernes 8 de febrero
Con la colección "Time", consistente de 423 documentos con 83 consultas asociadas con sus correspondientes juicios de relevancia, hacer lo siguiente:

1) Preprocesar cada documento con: a) Eliminación de palabras vacías, usando la lista que viene asociada a la colección. b) Truncamiento con el algoritmo de Porter.

2) Extraer el vocabulario de cada documento junto con su frecuencia de término (tf).

3) Repetir las tareas 1 y 2 con las consultas (queries) asociadas.

Deberá entregarse el código y un archivo listando vocabularios de documentos: Doc1 termino1-1 frecuencia1-1 termino1-2 frecuencia1-2 … Doci terminoi-1 frecuenciai-1 terminoi-2 frecuenciai-2 …

Y de las consultas: Query1 termino1-1 frecuencia1-1 termino1-2 frecuencia1-2 … Queryj terminoj-1 frecuenciaj-1 terminoj-2 frecuenciaj-2 …

La colección se puede obtener de la siguiente liga: http://ir.dcs.gla.ac.uk/resources/test_collections/

Se puede obtener alguna implementación (e información adicional) del algoritmo de Porter en: https://tartarus.org/martin/PorterStemmer/


Tarea 2:
Fecha de entrega: jueves 21 de febrero
Partiendo de la tarea anterior para la colección Time, donde ya se cuenta con el vocabulario de cada documento y de las consultas. 1) Conjuntar el vocabulario de la colección, calculando la frecuencia de documento (número de documentos en que aparece) de cada término (Aquí no intervienen las consultas). A partir del vocabulario de la colección, construir los vectores de cada documento con un pesado tf.idf y cada consulta con pesado binario. 2) Realizar la recuperación de información para las primeras 10 consultas, obteniendo los documentos que tienen una medida de similitud coseno distinta de cero y ordenándolos decrecientemente. Calcular los niveles de recuerdo y precisión alcanzados según el orden obtenido en la recuperación en cada una de las consultas. Para esto se usarán los juicios de relevancia de la colección. Se deberá generar una salida de la siguiente forma (i = 1...10, j dependiendo del número de documentos recuperados): Qi D1 R1 P1 D2 R2 P2 … Dj Rj Pj

Entregables: Código y listado de salida generada.


Tarea 3:
Fecha de entrega: martes 26 de marzo
Partiendo de la tarea 2, para cada consulta recuperar los 100 documentos con mayor similitud coseno. Considerar los 3 primeros documentos recuperados como relevantes, y mediante la aplicación de la fórmula de Rocchio, construir una nueva consulta. Con esta nueva consulta recuperar nuevamente los 100 documentos con mayor similitud coseno.

Calcular y comparar el "Average Precision" (AP) de los documentos recuperados para cada consulta, antes y después de la expansión de la consulta.

Entregables: Código y lista de AP por consulta, antes y después de expansión.

Lecturas

Seleccionar un paper de los que se listan a continuación y preparar una presentación de máximo 15 min., incluyendo la motivación de la investigación, la descripción de sus principales ideas, sus resultados y una discusión de sus ventajas y desventajas. Terminar explicando cómo se extendería ese trabajo o cómo se usaría para otro propósito.

Las exposiciones serán: 28 de febrero y 5 de marzo.

Papers:

  • Wenjia Ma et al. Claim Retrieval in Twitter, WISE 2018.
  • Matthias Schildwächter et al. Answering Comparative Questions: Better than Ten-Blue-Links? CHIIR 2019
  • Asma Ouertatania et al. Argued opinion extraction from festivals and cultural events on Twitter. Procedia Computer Science 126(2018).
  • Liu Yang et al. Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval. ECIR 2016.
  • Ivan Vulic et al. Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings. SIGIR 2015.
  • Adrian-Gabriel Chifu et al. Human-Based Query Difficulty Prediction. ECIR 2017
  • Daniel Cohen et al. A Hybrid Embedding Approach to Noisy Answer Passage Retrieval. ECIR 2018
  • Vincent Claveau. Indiscriminateness in Representation Spaces of Terms and Documents. ECIR 2018.
  • David Andrzejewski et al. Latent Topic Feedback for Information Retrieval. KDD 2011.
  • Charles L. A. Clarke et al. Novelty and Diversity in Information Retrieval Evaluation. SIGIR 2008.
  • Saar Kuzi et al. Query Expansion Using Word Embeddings. CIKM 2016.
  • Fernando Diaz et al. Query Expansion with Locally-Trained Word Embeddings. ACL 2016.
  • Danqi Chen et al. ReadingWikipedia to Answer Open-Domain Questions. ACL 2017.
  • Dwaipayan Roy et al. Using Word Embeddings for Automatic Query Expansion. Neu-IR 2016.
  • Debasis Ganguly et al. A Word Embedding based Generalized Language Model for Information Retrieval. SIGIR 2015.

SIGIR Test of time awards

  • Xing Wei et al. LDA-Based Document Models for Ad-hoc Retrieval. SIGIR 2006.
  • Eugene Agichtein et al. Improving web search ranking by incorporating user behavior information. SIGIR 2006.
  • Donald Metzler et al. A Markov random field model for term dependencies. SIGIR 2005
  • Wei Xu. Document clustering based on non-negative matrix factorization. SIGIR 2003.
  • C. Zhai. A Study of Smoothing Methods for Language Models applied to Ad Hoc Information Retrieval. SIGIR 2001.