Recopilación y Estructuración Automática de Contenidos Educativos Digitales a partir de la Web

Luis Villaseñor Pineda1, Manuel Montes y Gómez1,2,
Liliana Morales Zanatta3,4 y Paolo Rosso2

1 Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México.
{mmontesg, villasen}@inaoep.mx

2
Universidad Politécnica de Valencia, España.
{mmontes, prosso}@dsic.upv.es

3 Secretaría de Educación Pública del Estado de Puebla, México.

4 Universidad Autónoma de Tlaxcala, México.
{lmzanatta, jgera_4908}@hotmail.com

 

Resumen

El presente trabajo presenta un proyecto que aborda la necesidad de métodos innovadores para la elaboración de contenidos educativos en formato digital, usando la información disponible en Internet acorde a los temas y nivel de educación básica. Para ello es necesario (i) realizar un estudio del alcance y tipo de contenidos disponibles en la Web relacionados con la curricula en educación básica; (ii) proponer y desarrollar nuevos métodos para buscar y recuperar páginas Web con contenido y lenguajes apropiados a la enseñanza de un tema en particular; (iii) definir mecanismos de organización y agrupamiento automáticos del conjunto de documentos recuperado, utilizando para ello las facilidades del hipertexto en un ambiente computacional.

 

Introducción

La Web es un conjunto de recursos enorme al cual podemos acceder de manera muy sencilla y que podemos aprovechar de muy diferentes maneras, por ejemplo, como lugar de encuentro virtual, como medio de comunicación, como fuente de información, etc. De particular interés es la posibilidad de participar directamente en la Web al poder compartir nuevos contenidos, nuestros propios contenidos. Sin embargo, uno de los grandes inconvenientes que tiene la Web como recurso pedagógico se deriva precisamente de la dificultad para encontrar la información deseada. Es tal el cúmulo de información a nuestra disposición, que encontrar aquello que realmente nos interesa puede ser, en muchos casos, una tarea llena de sinsabores y sorpresas desagradables. Tras una búsqueda realizada hoy podemos encontrar una enorme cantidad de información; pero puede ser que mañana la misma búsqueda nos de un resultado total o parcialmente distinto, debido entre otras cosas, a la tremenda volatilidad de la información que circula por la Red. Otro inconveniente, más grave que el anterior, es la dificultad para distinguir la “buena” de la “mala” información, es decir, cómo distinguir o discriminar entre la información de calidad de aquella poco seria. En la Web circula una gran cantidad de información, en muchos casos de autoría desconocida, lo que nos hace dudar de su calidad [5]. Así un alumno se encontrará en una difícil situación, sin criterios claros que le sirvan para filtrar la pertinencia de la información encontrada. También es importante notar que deseamos no sólo encontrar documentos que respondan a nuestra pregunta, también deseamos que ese documento sea lo suficientemente claro para facilitar la asimilación de dicha información. En el caso particular de los alumnos de educación básica, el lenguaje usado debe ser sencillo y claro, por ejemplo es distinto el lenguaje que usa estudiante de primer año al de uno de sexto. Por supuesto, en la Web, como gran biblioteca digital, no hace ninguna distinción sobre los niveles de un posible lector. Así llegamos a la problemática de la elaboración de materiales y contenidos propios, orientados a satisfacer necesidades de información precisas para individuos específicos. En esta problemática los primeros involucrados son los docentes, quienes conocen qué materiales y contenidos son los apropiados para determinado nivel y tema. Sin embargo, esta labor es extremadamente demandante. La idea detrás de este proyecto es la búsqueda de un punto intermedio, donde la elaboración de contenidos educativos digitales propios se apoye parcialmente en la información ya existente en la Web y en métodos computacionales, pero brindando al docente mecanismos pertinentes para la creación de una colección a partir de criterios específicos.

 

En particular, este proyecto brinda al docente con nuevos elementos para la elaboración de contenidos educativos complementarios y actualizados a los materiales tradicionales. Tres problemas centrales se desean resolver con este proyecto. El primero es establecer las características determinantes para identificar un documento como apropiado a un tema específico. Para ello se realizará un estudio sobre los contenidos disponibles en la Web orientados a la educación básica bajo dicha temática. El segundo problema es la definición de métodos de búsqueda y recuperación de contenidos pertinentes a partir de la Web. Un documento será considerado apropiado no sólo por corresponder al tema de interés sino también por el nivel de lenguaje usado, ya que dicho documento será leído por un alumnado de educación básica. El tercer problema es la estructuración y generación automática de hipertexto a partir de dichos contenidos. Es decir, se desean brindar mecanismos automáticos que simplifiquen el proceso de creación y actualización de contenidos digitales.

 

Antecedentes

La educación es sin lugar a dudas un factor de primera importancia en toda sociedad moderna. Así se ha reconocido en México desde sus inicios como país independiente, y así ha quedado manifestado en el más reciente Plan Nacional de Desarrollo, donde se expresa la convicción del actual gobierno por hacer de la educación el gran proyecto nacional. El Plan Nacional precisa que la elevada prioridad de la educación habrá de reflejarse en la asignación de recursos crecientes para ella y en un conjunto de acciones, iniciativas y programas que la hagan cualitativamente diferente y transformen el sistema educativo. El gran reto de la educación en México puede expresarse mediante tres principios fundamentales: educación para todos, educación de calidad y educación de vanguardia [1]. Sin duda alguna el uso y aplicación de las nuevas tecnologías en la educación juega un papel importante en la consolidación de los retos de la educación en México. En particular el uso de Internet como herramienta educativa facilitará la educación a distancia y la implantación de los programas de superación continua de los profesores, ayudará en las tareas de administración educativa, y por supuesto, consolidará una educación de calidad y vanguardia con acceso al mayor repositorio de información jamás construido por el hombre [2, 3, 4].

 

CONECTANDO LAS ESCUELAS A INTERNET. El primer paso para el aprovechamiento de las nuevas tecnologías busca conectar a Internet a todas las escuelas del país. Se han alcanzado importantes resultados a través de grandes esfuerzos como la Red Escolar de Informática Educativa. Gracias a este esfuerzo se logro equipar para el año 2000 a un total de 6 mil 414 planteles educativos que atienden a 7 mil 094 escuelas primarias y secundarias, 200 centros de maestros, 251 escuelas normales y 16 Centros de Tecnología Educativa. De esta manera, Red Escolar ha proporcionado servicios a más de 2.4 millones de estudiantes y 40 mil maestros.

 

LOS CONTENIDOS EDUCATIVOS DIGITALES. El segundo paso es ofrecer un conjunto de materiales y servicios en línea para enriquecer el acervo de información disponible para docentes y alumnos. A través de Red Escolar, se provee al personal docente de bancos de información conformados por videos, imágenes y páginas Web, con el propósito de actualizar al personal sobre los contenidos de los programas escolares y las nuevas formas de transmitirlos. Red Escolar, también cuenta con una biblioteca digital donde los maestros y alumnos pueden realizar consultas bibliográficas y hemerográficas y tienen acceso en línea a Internet, discos compactos y software educativo proveniente de diferentes instituciones educativas. Hasta el 2001 el sitio en Internet de este proyecto contaba con más de 130 mil páginas de información relevante de los planes y programas de educación básica de la SEP. El presente proyecto pretende abordar esta situación al brindarle elementos al docente para la elaboración de materiales digitales propios. Primero, facilitando su búsqueda ya sea sobre la colección misma de Red Escolar o abriendo el panorama a toda la información disponible en Internet. Segundo, después de agregar, corregir o eliminar los documentos recuperados, enlazar de manera semiautomática dichos documentos en un hipertexto el cual podrá ser fácilmente consultado/navegado por los alumnos. De esta manera, es directamente el docente quien escoge y orienta su material dependiendo de necesidades puntuales.

 

EL ESPAÑOL EN INTERNET. Otro de los puntos relevantes a notar es la presencia del español en Internet. A mediados del 2001 se estimaba que el 5.6% de los internautas en todo el mundo navegan en español [6]. Es decir, de los aproximadamente 476 millones de usuarios de Internet, 26 millones tienen el español como lengua principal. Sin embargo, destaca la escasa presencia de contenidos en español, muy por detrás del inglés, y también con menos presencia que el alemán, el japonés o el chino, a pesar del elevado número de hispanohablantes, que se aproxima a los cuatrocientos millones.

 

EL TRATAMIENTO AUTOMÁTICO DEL LENGUAJE HUMANO. Desde la aparición de las computadoras el Tratamiento Automático del Lenguaje Humano siempre ha sido un tema de investigación. Esta área de investigación, también conocida como Procesamiento del Lenguaje Natural, es un subcampo en la disciplina de la Inteligencia Artificial. Dada la enorme complejidad del lenguaje humano aún no se cuenta con una solución completa para su "entendimiento". Actualmente sólo se cuenta con soluciones limitadas enfocadas a tratar subproblemas específicos, por ejemplo, la clasificación de textos escritos o el reconocimiento de voz. En particular, este proyecto cae dentro del área de Recuperación de Información. En esta área no se pretende "entender" un documento para determinar si éste es o no relevante a una búsqueda dada. El enfoque es estadístico y se basa en la observación de las palabras y sus frecuencias en los documentos, y su relación con las palabras usadas para expresar la búsqueda. Es precisamente en estas áreas que desde hace varios años los investigadores del Laboratorio de Tecnologías del Lenguaje de la Coordinación de Ciencias Computacionales del INAOE han realizado diversos proyectos. Cabe hacer notar que gran parte de estos proyectos han sido financiados por el CONACYT abordando diferentes aspectos del tratamiento automático del lenguaje.

 

Metodología

Es evidente que Internet está adquiriendo día a día una mayor relevancia y presencia en el sector educativo. El uso de Internet como complemento informativo se sostiene en la creencia de que la Web es una gran biblioteca, sin embargo factores como la diversidad de contenidos e idiomas, su gran tamaño, y la carencia de herramientas adecuadas para buscar información complican su aplicación. En la primera etapa del proyecto, que en las siguientes secciones se describe, se estudiará en forma empírica el alcance y tipo de contenidos disponibles en la Web relacionados con la curricula en educación básica. El objetivo de este estudio es evaluar la disponibilidad de contenidos, así como su calidad y riqueza informativa. Una evaluación completa y precisa del contenido educativo disponible en la Web se lograría solamente si se pudieran visitar todas sus páginas. Dado que esto es imposible, se propone una metodología inversa para esta evaluación, que parte de un conjunto de peticiones de temática educativa, y se realiza sobre los documentos recuperados por los buscadores para dichas peticiones. Además, esta metodología tiene un sentido pragmático puesto que los conjuntos de peticiones y documentos revisados son pequeños, pero ajustados a las costumbres de uso de la Web. Esta primera etapa consiste en:

·         Seleccionar la máquina de búsqueda con la que se realizará el estudio. Esta selección se basará en un estudio comparativo de las principales máquinas de búsqueda disponibles en la Web. Algunas de las características consideradas son: su cobertura, su capacidad de indexamiento, y su popularidad.

·         Definir un conjunto muestra de peticiones de temática educativa bajo los siguientes criterios. Primero, las peticiones tendrán que obtenerse de forma directa de los libros de texto. Segundo, deberán estar relacionadas con la temática del libro de texto de donde se obtuvieron. Tercero, deberán cubrir adecuadamente toda la curricula de los grados académicos seleccionados.

·         Definir los criterios para la clasificación y evaluación de los documentos. Nuestro interés recae en tres puntos de cada página recuperada: (i) su relevancia, es decir, si tiene contenido educativo; (ii) su adecuación, es decir, si el contenido que presenta es de nivel básico; y (iii) si es complementaria a los contenidos oficiales, es decir, si expone algo diferente a lo contenido en los libros de texto.

·         Construir un conjunto inicial de páginas Web con contenido educativo de nivel básico. Este conjunto se obtendrá a través del buscador seleccionado y el conjunto de peticiones muestra. Se estima conformar un conjunto de alrededor de 5000 páginas web distribuidas uniformemente en los grados y materias estudiados. Este conjunto de páginas web será pieza fundamental para el desarrollo del proyecto. En particular este conjunto permitirá: (i) analizar estadísticamente la disponibilidad de contenidos educativos en la Web, su distribución por temas y calidad; (ii) soportar el entrenamiento de los métodos computacionales para la clasificación automática.

·         Analizar estadísticamente los resultados obtenidos. Algunas estadísticas que se planea obtener se relacionan con la disponibilidad de contenidos en forma global y por materia, su riqueza informativa, su confiabilidad, su extensión, y su origen.

 

Para resolver los objetivos de la segunda meta del proyecto será necesario resolver dos problemas: (i) recuperar la mayor cantidad de documentos pertinentes de Internet dada una petición; y (ii) filtrar dichos documentos en función del lenguaje empleado. El primer problema ha sido estudiado ampliamente y existen diversas técnicas para resolverlo. En particular, dado que deseamos recuperar la mayor cantidad de documentos afines se usará la técnica de expansión de la petición. Esta técnica amplía la petición original incluyendo términos relacionados, por ejemplo, sinónimos. Con ello aseguramos que la colección de documentos sea lo más amplia posible. El segundo problema es un campo poco estudiado hasta ahora y de gran interés para el éxito del proyecto. El problema central radica en cómo poder caracterizar un documento para decidir si éste es adecuado al nivel del lenguaje manejado por un alumno de educación básica. Existen dos áreas que han trabajo esta problemática: la lexicografía y el modelado estadístico del lenguaje. Los lexicógrafos han desarrollado diferentes métodos para estudiar el lenguaje usado por una persona. Por ejemplo, gracias a los rasgos léxicos de un texto es posible afirmar quién es su autor; o por ejemplo, estudiar los cambios en el vocabulario de un personaje político dependiendo del público al cual se dirige. Sin embargo, estos métodos no permiten caracterizar un texto más allá del vocabulario usado. Es por ello que recurrimos al modelado estadístico del lenguaje. Un modelo de lenguaje estima la probabilidad de que determinada palabra esté seguida por otra palabra en particular. Un modelo de lenguaje puede extenderse a contextos de 3, 4 o 5 palabras capturando parcialmente las características sintácticas de un texto o un conjunto de textos. Para calcular nuestro modelo usaremos el volumen de textos resultante de la primera etapa. Con este modelo de lenguaje estaremos en posibilidad de medir si un nuevo documento es similar a los del corpus inicial. Evidentemente una serie de experimentos tendrán que llevarse a cabo para afinar el modelo.

 

Durante la realización de la tercera meta del proyecto básicamente usaremos los métodos desarrollados en el laboratorio con este fin. Para ello contamos con un sistema para automatizar las tareas de estructuración y vinculación de textos. Este se basa en la identificación automática de palabras clave para cada documento de la colección. A través de ellas se vinculan los documentos generando un ejemplar en hipertexto. El sistema también nos permite actualizar automáticamente el hipertexto al modificar o eliminar alguno de los documentos fuente.

Referencias

1.  Secretaria de Educación Pública de México (2001). Programa Nacional de Educación 2001-2006. Sept 2001.

2.  Adell, J. (1996). Internet en educación: una gran oportunidad. Revista Net Conexión, nº11, Sept 1996.

3.  Gómez Galán, J. (2002). La World Wide Web (WWW) en la Educación. Educación Social y Nuevas Tecnologías. (pp. 120- 145). Sevilla: Kronos, 2002.

4.  Morales Zanatta, L. (2002). La tecnología aplicada a la educación del Siglo XXI. Revista Identidad Magisterial, Febrero 2003.

5.  Gómez Galán, J. (2001). Internet: ¿Realmente Una Herramienta Educativa?. I Congreso internacional de Educared, 2001.

6.  O'Neill, E. T., Lavoie, B. F., y Bennett, R. (2003). Trends in the Evolution of the Public Web 1998-2002. D-Lib Magazine, Volume 9, Number 4, April 2003.