![]() | CATyPI |
![]() |
|
|
Corpus de Argumentos de Tesis y Propuestas de InvestigaciónIntroducciónEl corpus de argumentos de tesis y propuestas de investigación (CATyPI) se compone de 300 secciones; cada sección tiene anotaciones de párrafos argumentativos, componentes argumentativos y relaciones. Los escritos provienen de la colección de tesis de Coltypi (González-López y López-López, 2015). La colección cuenta con 468 tesis y propuestas de investigación en el área de informática y tecnologías de la información. Los textos son de Licenciatura y de postgrado (Maestría y doctorado). En particular, nuestro estudio se centra en las secciones de planteamiento del problema, justificación y conclusiones. Estas secciones se consideran altamente argumentativas (López y García, 2003). El corpus CATyPI se crea para identificar las características argumentativas en escritos académicos de los estudiantes de nivel pregrado y posgrado. El corpus se ha utilizado para detectar párrafos con argumentos, evaluación de la sección de justificación y la identificación de componentes argumentativos. Proceso de anotaciónRealizamos la anotación de 300 secciones con dos instructores que tienen experiencia revisando tesis, los cuales siguieron la guía de anotación. Para el proceso de anotación, se diseñó una guía para la anotación de argumentos. Consideramos dos componentes de argumento: premisas y conclusiones, así como dos tipos de relaciones entre componentes: apoyo y ataque. En nuestra guía de anotación describimos diferentes estructuras argumentativas con sus componentes de argumento (conclusión / premisa) y sus relaciones (ataque / apoyo). También incluimos tipos de argumentos y una puntuación para establecer el nivel de un argumento. Además, se incluye un conjunto de ejemplos tomados de tesis académicas para apoyar a los anotadores. Finalmente, al final de la guía, presentamos el procedimiento de anotación. La guía de anotaciones está disponible en anotation_guide_file.pdf También convertimos la anotación de documentos de Word a BRAT. La guía de anotaciones para BRAT está disponible en annotation_brat_file.pdf Estadísticas de CorpusEl nivel de argumentación anotado para cada párrafo se utilizó para identificar los párrafos sin argumento (nivel 0) y los párrafos con argumentos (niveles 1, 2 y 3). En la Tabla 1, observamos que la mayoría de las secciones tienen más de la mitad de párrafos con argumentos. Seleccionamos sólo los párrafos en los que coincidieron los dos anotadores. La restricción reduce el número de párrafos a 856 con 1,913 oraciones y 76,841 palabras. De 856 párrafos analizados, encontramos que 584 son argumentativos con una proporción de 68.2%. Con el análisis, observamos que una cantidad significativa de párrafos en tesis académicas tienen argumentos.
Tabla 1: Distribución de párrafos argumentativos por secciones La distribución de los párrafos entre niveles académicos es 63.3% para nivel licenciatura (542 párrafos), 27.7% de maestría (237 párrafos) y 9% de doctorado (77 párrafos). La sección con más párrafos es licenciatura ya que nuestro objetivo principal es ayudar a los estudiantes universitarios. En la Tabla 2 observamos segmentos marcados por los dos anotadores como conclusión, premisas o sin ninguna etiqueta (ninguna) por sección. Sólo seleccionamos segmentos donde los dos anotadores estaban de acuerdo. Esta restricción redujo el número de segmentos a 2,104. Hemos encontrado un total de 1,060 premisas y 562 conclusiones, casi el doble del número de premisas en comparación con las conclusiones.
Tabla 2: Distribución de componentes argumentativos por sección Descargar de corpusPara descargar el corpus CATyPI es necesario completar el formulario de acceso. Una vez completado un mensaje de correo electrónico será enviado a la dirección con información para descargar el corpus CATyPI. El corpus es producto de la investigación doctoral en curso intitulada “Análisis Textual de Argumentos en Escritos Académicos” del alumno autor1 asesorada por el autor2. El corpus se comparte para propósitos académicos bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional. Investigaciones publicadas que utilicen el corpus deben citar a "Garcia-Gorrostieta, J. M., & López-López, A. 2019. A Corpus for Argument Analysis of Academic Writing: Argumentative Paragraph Detection. Journal of Intelligent & Fuzzy Systems, 36(5):4565-4577. DOI:10.3233/JIFS-179008". Access form
Formulario de acceso
|