Plataforma
de adquisición y análisis de datos
para sistemas multimodales
Luis Villaseñor Pineda
Departamento
de Ciencias de la Computación
Instituto de Investigaciones en Matemáticas Aplicadas y en
Sistemas
Resumen
El diseño de sistemas computacionales no comprende únicamente el entendimiento de la tecnología computacional. Para un diseño adecuado el entendimiento de las capacidades humanas involucradas así como la tarea a realizar son elementos fundamentales [John & Morris 1993]. Existen infinidad de ejemplos donde un sistema computacional resultó un fracaso por no tener en cuenta estos aspectos. Sin embargo, su cabal entendimiento no es sencillo. Por un lado, cuando las tareas son complejas y/o la cantidad de información es elevada no es fácil definir esquemas que simplifiquen la interacción hombre-máquina. Por otro lado, tampoco es claro como integrar al diseño elementos como las capacidades de percepción, las características cognitivas (p. e. memoria de corto y largo plazo, aprendizaje) las capacidades motoras y los contextos de organización social del usuario. De ahí la enorme necesidad de realizar estudios empíricos sobre la interacción entre el hombre y la computadora para establecer los términos de una comunicación eficaz.
Este proyecto propone la construcción de una plataforma de adquisición y un conjunto de herramientas de análisis de datos para el estudio de la interacción multimodal hombre-máquina. A través de la plataforma, un ser humano simula las capacidades de entendimiento y comprensión del sistema e interactúa con el usuario a través de una interfaz computacional real. La plataforma también provee los medios necesarios para registrar todos los eventos ocurridos durante la interacción. Posteriormente, el conjunto de datos recolectados –el corpus–será analizado con las herramientas propuestas.
El proyecto tendrá una duración de dos años, participarán dos estudiantes y se contará con la colaboración de dos técnicos académicos. Entre los logros por alcanzar tenemos:
Objetivo
El objetivo es el estudio de la interacción multimodal a través de datos empíricos. Existen diversos medios para la recopilación de los datos, el más adecuado en nuestro contexto de aplicación es el llamado experimentos del Mago de Oz. Estos experimentos permiten colocar a un usuario en una situación muy próxima a la real gracias a una simulación donde un operador humano –el mago– toma el papel del sistema computacional. Durante la realización del experimento se graban todas las intervenciones del usuario, así como las del mago. En nuestro caso, se tiene particular interés en la multimodalidad, por lo que la recopilación de datos abarca los aspectos lingüísticos y gráficos de cada intervención. Es a partir de los datos recopilados que el estudio da inicio. Gracias a estos datos será posible conformar una idea concreta –aunque parcial– de los elementos que constituyen una comunicación eficaz entre un hombre y una máquina.
En resumen, el presente proyecto se enfoca en la especificación y construcción de:
Metas
Antecedentes
Hoy en día, la búsqueda de técnicas para el procesado de datos de manera barata, eficiente y rápida ha dejado de ser el problema central del diseño de sistemas computacionales. Gracias a los desarrollos tecnológicos las máquinas son rápidas, poderosas, baratas y grandes cantidades de datos pueden ser almacenadas y presentadas al usuario. El problema actual se enfoca en el desarrollo de medios de comunicación adecuados que permitan al usuario la manipulación de esta información y su correcta interpretación.
La comunicación multimodal –en particular, el lenguaje natural oral integrado a un contexto gráfico– tiene grandes ventajas. Usando el lenguaje natural, el usuario invierte un esfuerzo mínimo en aprender el medio de comunicación a diferencia de los lenguajes de comandos o las interfaces gráficas puras. Gracias al lenguaje natural la atención del usuario se enfoca en la tarea propiamente dicha. Sin embargo, su uso también es un obstáculo, dado que la máquina tiene una comprensión limitada del lenguaje. Este impedimento engendra toda una serie de problemas en la comunicación que el usuario debe compensar. El estudio empírico de la interacción hombre-máquina es indispensable para la creación de modelos de comunicación adecuados. Los siguientes párrafos muestran los antecedentes sobre los tres puntos que cubre la presente propuesta: los sistemas de habla interactivos, los experimentos del Mago de Oz y las herramientas para tratamiento del corpus.
Sistema
de habla interactivo
La construcción de una interfaz con capacidades de interacción en lenguaje natural oral requiere la integración de diferentes componentes, entre los principales tenemos:
El modelado de los tres primeros componentes requiere de datos empíricos. Para el reconocimiento de voz la conformación de un corpus adecuado es indispensable. Los sistemas de reconocimiento de voz basados en modelos ocultos de Markov (HMM) son actualmente los que presentan mejores resultados. Para la construcción de estos modelos es indispensable contar con la información fonética de la pronunciación de cada palabra. Lo que es más, necesitamos establecer todas las posibles variantes de la pronunciación de una palabra (diferentes entonaciones, locutores, contextos gramaticales, etc.) para conformar el modelo más robusto.
Por otro lado, un aspecto importante a considerar en la interpretación del lenguaje natural es el habla espontánea. La única manera de conocer y caracterizar los fenómenos propios del habla espontánea (p. e. frases fragmentadas, vacilaciones, combinaciones agramaticales, etc.) es a través de su observación. Esto implica la recolección de datos en una situación de comunicación real o simulada con un sistema computacional. De igual manera que el paso anterior, un modelo para tratamiento del habla espontánea será más robusto mientras más fenómenos sean considerados.
Finalmente, el modelo de administración del diálogo debe contener los elementos adecuados para tratar la incomprensión. Dos tipos de incomprensión nos interesan:
Cuando
la intervención del usuario es incoherente, es decir, cuando el
sentido de la intervención está fuera de lugar o no es
posible concluir una respuesta pertinente.
Cuando la intervención del usuario es mal interpretada, es
decir, cuando se tienen los elementos suficientes para concluir una
respuesta pero sin ser ésta la respuesta esperada por el
usuario.
Para solucionar estos problemas es necesario establecer mecanismos de recuperación y de rectificación. La definición de estos mecanismos se realizará con ayuda de un corpus donde sea posible observar y analizar la estructura de los intercambios necesarios para restablecer la comunicación.
Bajo estos tres temas existen muy diversos trabajos, por mencionar algunos tenemos: en el reconocimiento de voz ([Bahl et al. 1983; Kamp 1992; Rabiner 1988]; particularmente en reconocimiento del español [Silva & Cardenoso 1998; Villarrubia et al. 1996]), en el tratamiento del lenguaje natural [Abney 1997; Price 1997; Uszkoreit & Zaenen 1997] y en la administración del diálogo [Carberry 1990; Grosz et al. 1989; Kamp & Reyle 1993; Litman 1985].
Entre los trabajos recientes bajo este tema realizados por el grupo de Sistemas Multimodales Inteligentes (SMI) en el departamento de Ciencias de la Computación del IIMAS tenemos: en el tratamiento de voz en español [Uraga & Pineda 2000], en el tratamiento del lenguaje [Pineda & Santana 2000; Pineda & Garza 2000] y en el estudio de modelos de administración de diálogos [Villaseñor et al. 2000].
Los
experimentos del mago de Oz
Originalmente, los experimentos del mago de Oz son un método para la creación de prototipos experimentales. En él, un humano –el mago– simula todo o parte del modelo de interacción del sistema a ser desarrollado, de manera que los usuarios creen que están interactuando con el sistema real [Bernsen et al. 1998; Dahlbäck et al. 1998]. A lo largo de los años, este método ha sido utilizado para muchos propósitos, sin embargo, el objetivo común es el estudio del comportamiento del hombre cuando se comunica con una computadora. Un resultado importante de estos trabajos, y sobre el cual se apoya nuestra hipótesis, es el hecho de que el comportamiento de un hombre ante una computadora difiere del comportamiento entre humanos [Amalberti et al. 1993].
Existen algunos ejemplos del uso del mago de Oz en situaciones multimodales, por ejemplo, el uso de voz y datos escritos para manejo de información de tráfico naval [Bertenstam et al. 95]; manipulación de imágenes gráficas [Hauptmann 1989]; o instrucción de agentes inteligentes [Maulsby et al. 1993]. Sin embargo, ningún caso es similar al nuestro, donde se desea estudiar la interacción en lenguaje natural oral espontáneo integrado con información gráfica en una situación de diseño.
Los puntos claves para la realización de experimentos del mago de Oz son los siguientes:
En los últimos meses el grupo de SMI a realizado una serie de experimentos del mago de Oz y conformado un primer corpus multimodal en situación de diseño. Gracias a los resultados de esta serie estamos en posición de definir y construir un conjunto de herramientas para mejorar y ampliar nuestra plataforma de experimentación.
Para que la simulación sea exitosa se necesita contar con ciertas características. Con respecto al usuario, como ya se mencionó anteriormente, se desea una simulación convincente. Para ello, se necesita resolver el problema de la generación de respuestas. Hasta el momento, los sintetizadores de voz, no alcanzan la naturalidad de la voz humana y lo que es aún más difícil es la construcción de la respuesta misma (la cual puede integrar diferentes modalidades). Para colocar al sujeto en una situación más próxima a la realidad necesitamos apoyar al mago en la generación de respuestas a través de un sintetizador, y presentar cierta regularidad sin perder naturalidad. Por supuesto, un tiempo de respuesta oportuno es indiscutible. Para abordar este problema, necesitamos apoyar al mago con un catálogo de respuestas posibles y una herramienta para su uso en tiempo real. La configuración de este catálogo es posible gracias a al corpus de diseño ya adquirido.
Con respecto al mago, el principal problema es la carga cognitiva que pesa sobre él. Él debe mantener cierta distancia con su interlocutor en dos aspectos principales: el lenguaje usado en la interacción y su capacidad de inferencia con respecto a la tarea. En ambos casos, lo que se intenta es establecer límites al mago para acercar su comportamiento al de un sistema computacional. Una herramienta de apoyo mostrando el modelo de interacción básico donde se muestra el estado del diálogo y sus expectativas con respecto a la tarea, guiará la conducta del mago sin reducir su libertad de interacción. Por otro lado, un reconocedor de voz intermedio ayudará a limitar el lenguaje usado durante la interacción. El mago nunca escuchará directamente al usuario y dado que usamos un reconocedor automático los problemas de comunicación presentes serán más cercanos a los presentes en una situación real.
Herramientas
para tratamiento del corpus
La recolección de datos lingüísticos es una tarea muy importante en lo que actualmente se conoce como ingeniería lingüística. La importancia de la construcción de estos bancos de datos a dado origen a un gran número de iniciativas. Existen muy variados proyectos que van desde la organización de los datos recolectados así como la definición de herramientas y estándares para su análisis. Entre las principales iniciativas internacionales tenemos el proyecto europeo EAGLES-II the Expert Advisory Group on Language Engineering Standars; y el Linguistic Data Consortium un consorcio de universidades, compañías y laboratorios cuyo objetivo es la creación, recolección y distribución de recursos lingüísticos [Bird & Liberman 1999].
Un número importante de estas colecciones de datos lingüísticos están enfocados en el lenguaje hablado. Un corpus de habla es comúnmente una colección de transcripciones de lenguaje hablado tal como monólogos, entrevistas, conversaciones o diálogos orientados por una tarea. El análisis de un corpus cubre diferentes aspectos: el contextual (quienes son los participantes, cuales son las metas que ellos tratan de alcanzar); el discursivo (análisis de los actos del habla, referencia, tarea y fenómenos de metacomunicación); el sintáctico (análisis del vocabulario, gramática); el fonológico (modelos para el reconocimiento de voz, prosodia) y el comportamental (análisis de la iniciativa, aspectos de cooperación y negociación). Nuestro principal interés abarca los aspectos fonológico, sintáctico y discursivo.
Desafortunadamente, con respecto al español mexicano existen muy pocas colecciones de datos, y éstas están orientadas exclusivamente al lenguaje hablado (para el español en general existen esfuerzos por parte de la Real Academia de la lengua española [Municio et al. 2000]; otro esfuerzo es el realizado por el LDC sobre el español hablado en los E.U.). Es importante recalcar, que en nuestro caso, deseamos recopilar datos multimodales donde la información gráfica se entremezcla con la información lingüística. Problemas propios de esta mezcla son las expresiones déicticas, por ejemplo, "pon esta mesa acá" donde de manera simultánea la palabra acá es acompañada de una designación directa realizada con el ratón indicando una posición. Fenómenos como éste, propios de la interacción multimodal, deberán ser considerados para definir los esquemas de descripción de los datos y la consecuente construcción de las herramientas adecuadas.
El estudio del corpus inicia con el etiquetado. En nuestro caso, éste consiste en anotar cada uno de los diferentes fenómenos presentes en el corpus describiendo sus características fonéticas, sus estructuras gramaticales y sus intercambios discursivos. El grupo SMI tiene y usa un conjunto de herramientas básicas (principalmente el toolkit HTK [Entropic 1993]) para el etiquetado fonológico y gramatical. Estas herramientas permiten la visualización de información acústica, segmentado (separación del audio en fragmentos) y transcripción (representación textual del audio de cada fragmento). Esta tarea es laboriosa, lenta y requiere de gente experimentada. Las herramientas propuestas pretenden semiautomatizar estos procesos, aplicando un primer paso automático de segmentado o etiquetado el cual será corregido o sencillamente refinado por el etiquetador. El objetivo es reducir considerablemente el tiempo invertido y el personal dedicado a estas tareas.
Metodología
Las herramientas y el ambiente propuestos se basan en gran medida en la experiencia adquirida por el grupo SMI. El grupo ha realizado una serie de simulaciones y cuenta actualmente con un corpus segmentado y transcrito en el contexto de diseño. Es a partir de esta experiencia y de los datos recolectados que se proponen los siguientes puntos.
Bibliografía
[Abney 1997] Abney, S. Part-of-speech tagging and partial parsing. In S.Young, G. Bloothooft (eds) Corpus-based Methods in Language and Speech Processing, Kluwer Academic Publishers, 1997, pp. 118-136.
[Allen & Core 1997] Allen, J. and Core. M., 1997. Draft of DAMSL: Dialog Act Markup in Several Layers. pp 32. http://www.cs.rochester.edu:80/research/trains/annotation/RevisedManual/RevisedManual.html
[Amalberti et al. 1993] Amalberti, R., Carbonell, N. & Falzon, P. User representations of computer systems in human-computer speech interaction. International Journal of Man-Machine Studies, 38, 1993, 547-566.
[Bahl et al. 1983] Bahl, L., Jelinek, F. & Mercer, R.L. A maximum likehood approach to continuous speech recongnition. IEEE Transactions on Pattern Analysis an Machine Intelligence. 5(2), 1983, 179-190.
[Bernsen et al. 1998] Bernsen, N.O., Dybkjaer, H. & Dybkjaer, L. Designing Interactive Speech Systems. Springer, 1998.
[Bertenstam et al. 95] Bertenstam, J., Beskow,J., Blomberg, M., Carlson,R. & Ström, N. The Waxholm system - a progress report. In Proceedings of the ESCA Workshop on Spoken Dialogue Systems, Denmark. Grenoble, ESCA, 1995.
[Bird & Liberman 1999] Bird, S. & Liberman, M. A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-99-01. Department of Computer Science, University of Pennsylvania. 1999.
[Carberry 1990] Carberry, S. Plan Recognition in Natural Language Dialogue. Cambridge, MIT Press. 1990.
[Creative 1999] WaveStudio by Creative. http://www.creative.com.
[Dahlbäck et al. 1998] Dahlbäck, N., Jönsson, A & Ahrenberg, L. Wizard of Oz Studies – Why and How. In M. Maybury & W. Wahlster (Eds) Readings in Intelligent User Interfaces. Morgan Kaufman Publishers, 1998. pp 610-619.
[Entropic 1993] Manuales de Usuario, Entropic Speech Tecnology, 1993.
[Grosz et al. 1989] Grosz, B.J., Pollack, M. & Sidner, C.L. Discourse. In I. Posner (ed) Foundations of Cognitive Science. Cambridge, MA. MIT Press. 1989, 437-468.
[Hauptmann 1989] Hauptmann, A.G. Speech and gestures for graphic image manipulation. In Proceedings of CHI'89. ACM, 1989.
[Hyperionics 1999] HyperCam by Hyperionics. http://www.hyperionics.com.
[John & Morris 1993] John, B.E. & Morris, J.H. HCI in the School of Computer Science at Carnegie Mellon University. Human Factors in Computing Systems, Proceedings INTERCHI´93. Amsterdam, 1993. pp 49-50.
[Kamp 1992] Kamp, Y. Introduction to Continuous Speech Recognition. Fourth European Summer School in Logic, Language and Information, Essex, UK, 1992.
[Kamp & Reyle 1993] Kamp, H & Reyle, U. From Discourse to Logic. Kluwer, 1993.
[Litman 1985] Litman D. Plan Recognition and Discourse Analysis: An Integrated Approach for Understanding Dialogues. Technical Report TR 170, University of Rochester, N.Y. 1985
[Martin et al. 1999] Martin, D. L., Cheyer, A. J. & Moran, D. B. The open agent architecture: A framework for building distributed software systems. Applied Artificial Intelligence, vol. 13, pp. 91--128, January-March 1999.
[Maulsby et al. 1993] Maulsby, D., Greenberg, S. & Mander, R. Prototyping an intelligent agent through Wizard of Oz. In Proceedings of INTERCHI´93. ACM 1993.
[Moran et al. 1997] D. B. Moran D.B., Cheyer, A.J., Julia, L. E., Martin, D. L. & Park, S. Multimodal user interfaces in the Open Agent Architecture. In Proc. of the 1997 International Conference on Intelligent User Interfaces (IUI97), (Orlando, Florida), pp. 61--68, 6-9 January 1997.
[Muggleton 95] Muggleton, S. Inverse Entailment and Progol. New Generation Computing. Vol. 13, pp 245-286. 1995.
[Municio et al. 2000] Municio, A.M., Rojo, G., Sánchez, F. & Pinillos, O. Language Resources Development at the Spanish Royal Academy. Second International Conference on Language Resources and Evaluation. LREC 2000. Grecia, 2000. pp. 1265-1270.
[Pineda & Garza 2000] Pineda, L.A. & Garza, G. A Model for Multimodal Reference Resolution. Computational Linguistics, 26(2), 139-193.
[Pineda & Santana 2000] Pineda, L. & Santana, S. Spanish Word-order, Clitics and Unbounded Dependencies. CICLing-2000 Conference on Intelligent test processing and Computational Linguistics, 2000. México.
[Price 1997] Price, P. Spoken Language understanding. In In R. A. Cole, J. Ariani, H. Uszkoreit, A. Zaenen & V. Zue. (eds) Survey of the State of the Art in Human Language Technology, URL: http://www.cse.ogi.edu/HLTsurvey.
[Rabiner 1988] Rabiner, L.R. Mathematical foundations of hidden Markiv Models. In H. Niemann, M. Lang & g. Sagerer (Eds). Recent Advances in Speech Understanding and Dialog Systems, NATO ASI Series F: Computer ans Systems Sciences, Vol 46. Springer, 1988, 183-206.
[Silva & Cardenoso 1998] Silva-Varela, H & Cardenoso-Payo, V. Phonetic classification in Spanish using a hierarchy of specialized ANNs. Progress in Artificial Intelligence - IBERAMIA 98, 6th Ibero-american Conference on Artificial Intelligence, Springer-Verlag, 1998, pp 373-384.
[Uraga & Pineda 2000] Uraga, E. & Pineda, L. A set of Phonological Rules for Mexican Spanish. CICLing-2000 Conference on Intelligent Text Processing and Computational Linguistics, 2000. México.
[Uszkoreit & Zaenen 1997]Uszkoreit, H. & Zaenen, A. Grammar Formalisms. In R. A. Cole, J. Ariani, H. Uszkoreit, A. Zaenen & V. Zue. (eds) Survey of the State of the Art in Human Language Technology, URL: http://cslu.cse.ogi.edu/HLTsurvey.
[Villarrubia et al. 1996] Villarrubia, L., Gómez, L.H., Elvira, J.M. & Torrecilla, J.C. Context-dependent units for vocabulary independent Spanish speech recognition. IEEE ICASSP-96, vol 1, pp 451-454.
[Villaseñor et al. 2000] Villaseñor, L., Massé, A. & Pineda, L. A multimodal dialogue contribution coding scheme. Workshop on Meta-Description and Annotation Schemas for Multimodal /Multimedia Language Resources, LREC 2000. Atenas, Grecia. pp 52-56.