CATyPI


Corpus de Argumentos de Tesis y Propuestas de Investigación

 

Introducción

El corpus de argumentos de tesis y propuestas de investigación (CATyPI) se compone de 444 secciones; cada sección tiene anotaciones de párrafos argumentativos, componentes argumentativos y relaciones. Los escritos provienen de la colección de tesis de Coltypi (González-López y López-López, 2015). La colección cuenta con 468 tesis y propuestas de investigación en el área de informática y tecnologías de la información. Los textos son de Licenciatura y de postgrado (Maestría y doctorado). En particular, nuestro estudio se centra en las secciones de planteamiento del problema, justificación y conclusiones. Estas secciones se consideran altamente argumentativas (López y García, 2003).

El corpus CATyPI se crea para identificar las características argumentativas en escritos académicos de los estudiantes de nivel pregrado y posgrado. El corpus se ha utilizado para detectar párrafos con argumentos, evaluación de la sección de justificación y la identificación de componentes argumentativos.

Proceso de anotación

Realizamos la anotación de 444 secciones con dos instructores que tienen experiencia revisando tesis, los cuales siguieron la guía de anotación. Para el proceso de anotación, se diseñó una guía para la anotación de argumentos. Consideramos dos componentes de argumento: premisas y conclusiones, así como dos tipos de relaciones entre componentes: apoyo y ataque. En nuestra guía de anotación describimos diferentes estructuras argumentativas con sus componentes de argumento (conclusión / premisa) y sus relaciones (ataque / apoyo). También incluimos tipos de argumentos y una puntuación para establecer el nivel de un argumento. Además, se incluye un conjunto de ejemplos tomados de tesis académicas para apoyar a los anotadores. Finalmente, al final de la guía, presentamos el procedimiento de anotación.

La guía de anotaciones está disponible en anotation_guide_file.pdf

También convertimos la anotación de documentos de Word a BRAT. La guía de anotaciones para BRAT está disponible en annotation_brat_file.pdf

Estadísticas de Corpus

El nivel de argumentación anotado para cada párrafo se utilizó para identificar los párrafos sin argumento (nivel 0) y los párrafos con argumentos (niveles 1, 2 y 3). En la Tabla 1, observamos que la mayoría de las secciones tienen más de la mitad de párrafos con argumentos. Seleccionamos sólo los párrafos en los que coincidieron los dos anotadores. La restricción reduce el número de párrafos a 1,434 con 3,029 oraciones y 112,572 palabras. De 1,434 párrafos analizados, encontramos que 1,090 son argumentativos con una proporción de 76%. Con el análisis, observamos que una cantidad significativa de párrafos en tesis académicas tienen argumentos.

Parrafos
con argumentos

Parrafos
sin argumentos
Planteamiento del Problema 275 119
Justificación 268 92
Conclusión 547 133
Total 1090 344


Tabla 1: Distribución de párrafos argumentativos por secciones

La distribución de los párrafos entre niveles académicos es 56.6% para nivel licenciatura (812 párrafos), 36.4% de maestría (522 párrafos) y 7% de doctorado (100 párrafos). La sección con más párrafos es licenciatura ya que nuestro objetivo principal es ayudar a los estudiantes universitarios.

En la Tabla 2 observamos segmentos marcados por los dos anotadores como conclusión, premisas o sin ninguna etiqueta (ninguna) por sección. Sólo seleccionamos segmentos donde los dos anotadores estaban de acuerdo. Solo en 75 secciones un juez resolvio los desacuerdos. Esta restricción redujo el número de segmentos a 3,488. Hemos encontrado un total de 1,700 premisas y 1,165 conclusiones, casi el doble del número de premisas en comparación con las conclusiones.

Conclusiones Premisas Ninguna
Planteamiento del Problema 268 503 228
Jusificación 262 408 155
Conclusión 635 789 240
Total 1165 1700 623


Tabla 2: Distribución de componentes argumentativos por sección

Descargar de corpus

Para descargar el corpus CATyPI es necesario completar el formulario de acceso. Una vez completado un mensaje de correo electrónico será enviado a la dirección con información para descargar el corpus CATyPI. El corpus es producto de la investigación doctoral en curso intitulada “Análisis Textual de Argumentos en Escritos Académicos” del alumno autor1 asesorada por el autor2. El corpus se comparte para propósitos académicos bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.

Investigaciones publicadas que utilicen el corpus deben citar el artículo del corpus . Garcia-Gorrostieta, J. M., Lopez-Lopez, A., Rico-Sulayes, A. & Carrillo, M. 2020. Argument corpus development and argument component classification: A study in academic. Digital Scholarship in the Humanities, 1-27. DOI:10.1093/llc/fqaa020

Formulario de acceso

Nombre completo:

Dirección de correo electrónico:

Título profesional:

Institución u organización
:



Referencias

Gonzalez-Lopez, S. and Lopez-Lopez, A. (2015). Coleccion de tesis y propuesta de investigacion en tics: un recurso para su analisis y estudio. In XIII Congreso Nacional de Investigacion Educativa, pages 1–15

Lopez Ferrero, C. and Garcia Negroni, M. (2003). La argumentacion en los generos academicos. In Actas del Congreso Internacional La Argumentacion, pages 1121–1129. Universidad de Buenos Aires, Buenos Aires.

 

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.