Main

Proyecto 247870

Caracterización de usuarios en redes sociales: hacia un enfoque multimodal y multidominio.

Responsable: Dr. Manuel Montes y Gómez
Financiado por: CONACYT-México
Vigencia: Aprobado para periodo Nov 2015 a Oct 2017
Num. Referencia: 247870
Participantes de:

Objetivo General

Internet se ha consolidado como un medio interactivo y masivo de comunicación, permitiendo el intercambio de información entre personas de distinta área geográfica, edad, estatus social, etc. Recientemente, este medio de comunicación ha ganado una impactante popularidad gracias a algunos servicios que invitan a compartir fácilmente información como son: redes sociales, mensajería, chats, blogs, entre otros. Sin embargo, aunado a ese impacto popular y sobre todo, a la facilidad de intercambiar información ocultando el perfil de las personas, la web también ha sido usada para realizar actos ilícitos o engañosos, como por ejemplo acoso sexual y extorsiones.

En un esfuerzo por detectar y/o prevenir este tipo de actos ilícitos, la disciplina conocida como lingüística forense hace uso del conocimiento lingüístico para estudiar textos que evidencien este tipo de mal comportamiento. La hipótesis detrás es que la forma en la que escribimos delata nuestra conducta. Sin embargo, realizar manualmente un análisis de este tipo sobre las redes sociales es impensable, surge así la idea de realizar este análisis de forma automática utilizando tecnologías computacionales.

Partiendo del hecho de que muchos de los actos ilícitos en las redes sociales se facilitan por el ocultamiento de la identidad de las personas, una tarea de primera importancia es la determinación automática del perfil de sus usuarios. Esta tarea consiste en identificar las características o rasgos que integran el perfil de cada usuario, como por ejemplo su edad, sexo, nivel de educación, nacionalidad, lenguaje de origen, e incluso personalidad, mediante el análisis de los contenidos que comparten a través de estos medios.

Así, el objetivo general del proyecto es "Formular nuevas representaciones y métodos para la determinación automática del perfil de usuarios de redes sociales, que consideren información multimodal y sean adecuados para aplicaciones multidominio. Con ello se pretende coadyuvar en la solución de algunos problemas vinculados con la ciberdelincuencia, al soportar la obtención de evidencia lingüística forense útil para su identificación y análisis."

Objetivos Particulares

  1. Construir un corpus de cuentas de Twitter de usuarios mexicanos, considerando sus textos, imágenes compartidas y metadatos, e incluyendo etiquetas relacionadas con su sexo, edad y región geográfica de procedencia.
  2. Definir representaciones multimodales para documentos de redes sociales que integren: información de textual, de contenido y estilo; información visual, correspondiente a las imágenes compartidas; e información de su contexto social extraída del grafo de contactos.
  3. Proponer nuevos métodos de clasificación para la determinación del perfil de usuarios de redes sociales que, además de considerar la información multimodal extraída, sean efectivos en el tratamiento de textos cortos y robustos ante las diferencias entre dominios.
  4. Implementar un sistema prototipo para la determinación del perfil de usuarios de Twitter, que considere (al menos) los atributos de sexo y edad.

Participantes:

Estudiantes asociados:

  • Rosa M. Ortega, de la Universidad Autónoma del Estado de Hidalgo.
  • Miguel A. Álvarez, de INAOE.
  • Sergio Bursisso, de la Universidad de San Luis, Argentina.

Productos principales:

Artículos