![]() | CATyPI |
![]() |
|
Corpus de Argumentos de Tesis y Propuestas de InvestigaciónIntroducciónEl corpus de argumentos de tesis y propuestas de investigación (CATyPI) se compone de 444 secciones; cada sección tiene anotaciones de párrafos argumentativos, componentes argumentativos y relaciones. Los escritos provienen de la colección de tesis de Coltypi (González-López y López-López, 2015). La colección cuenta con 468 tesis y propuestas de investigación en el área de informática y tecnologías de la información. Los textos son de Licenciatura y de postgrado (Maestría y doctorado). En particular, nuestro estudio se centra en las secciones de planteamiento del problema, justificación y conclusiones. Estas secciones se consideran altamente argumentativas (López y García, 2003). El corpus CATyPI se crea para identificar las características argumentativas en escritos académicos de los estudiantes de nivel pregrado y posgrado. El corpus se ha utilizado para detectar párrafos con argumentos, evaluación de la sección de justificación y la identificación de componentes argumentativos. Proceso de anotaciónRealizamos la anotación de 444 secciones con dos instructores que tienen experiencia revisando tesis, los cuales siguieron la guía de anotación. Para el proceso de anotación, se diseñó una guía para la anotación de argumentos. Consideramos dos componentes de argumento: premisas y conclusiones, así como dos tipos de relaciones entre componentes: apoyo y ataque. En nuestra guía de anotación describimos diferentes estructuras argumentativas con sus componentes de argumento (conclusión / premisa) y sus relaciones (ataque / apoyo). También incluimos tipos de argumentos y una puntuación para establecer el nivel de un argumento. Además, se incluye un conjunto de ejemplos tomados de tesis académicas para apoyar a los anotadores. Finalmente, al final de la guía, presentamos el procedimiento de anotación. La guía de anotaciones está disponible en anotation_guide_file.pdf También convertimos la anotación de documentos de Word a BRAT. La guía de anotaciones para BRAT está disponible en annotation_brat_file.pdf Estadísticas de CorpusEl nivel de argumentación anotado para cada párrafo se utilizó para identificar los párrafos sin argumento (nivel 0) y los párrafos con argumentos (niveles 1, 2 y 3). En la Tabla 1, observamos que la mayoría de las secciones tienen más de la mitad de párrafos con argumentos. Seleccionamos sólo los párrafos en los que coincidieron los dos anotadores. La restricción reduce el número de párrafos a 1,434 con 3,029 oraciones y 112,572 palabras. De 1,434 párrafos analizados, encontramos que 1,090 son argumentativos con una proporción de 76%. Con el análisis, observamos que una cantidad significativa de párrafos en tesis académicas tienen argumentos.
Tabla 1: Distribución de párrafos argumentativos por secciones La distribución de los párrafos entre niveles académicos es 56.6% para nivel licenciatura (812 párrafos), 36.4% de maestría (522 párrafos) y 7% de doctorado (100 párrafos). La sección con más párrafos es licenciatura ya que nuestro objetivo principal es ayudar a los estudiantes universitarios. En la Tabla 2 observamos segmentos marcados por los dos anotadores como conclusión, premisas o sin ninguna etiqueta (ninguna) por sección. Sólo seleccionamos segmentos donde los dos anotadores estaban de acuerdo. Solo en 75 secciones un juez resolvio los desacuerdos. Esta restricción redujo el número de segmentos a 3,488. Hemos encontrado un total de 1,700 premisas y 1,165 conclusiones, casi el doble del número de premisas en comparación con las conclusiones.
Tabla 2: Distribución de componentes argumentativos por sección Descargar de corpusPara descargar el corpus CATyPI es necesario completar el formulario de acceso. Una vez completado un mensaje de correo electrónico será enviado a la dirección con información para descargar el corpus CATyPI. El corpus es producto de la investigación doctoral en curso intitulada “Análisis Textual de Argumentos en Escritos Académicos” del alumno autor1 asesorada por el autor2. El corpus se comparte para propósitos académicos bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional. Investigaciones publicadas que utilicen el corpus deben citar el artículo del corpus . Garcia-Gorrostieta, J. M., Lopez-Lopez, A., Rico-Sulayes, A. & Carrillo, M. 2020. Argument corpus development and argument component classification: A study in academic. Digital Scholarship in the Humanities, 1-27. DOI:10.1093/llc/fqaa020 Formulario de acceso
|