Protocolo para Proyectos de Investigación

INTRODUCCIÓN

Análisis automático por compradora del texto en el español es la base indispensable para una amplia gama de tecnologías y aplicaciones del manejo de información y documentos. Se pueden mencionar la recuperación de información (los buscadores de Internet y en las bases de datos), la traducción automática, las interfaces humano-computadora en el lenguaje natural, la presentación resumida de los enormes flujos y acervos de información que hoy en día abundan en toda la clase de actividades humanas, entre otras. En cortas palabras, es uno de los pilares de la sociedad informática que se está construyendo en el mundo y en nuestro país.

El análisis automático de texto en español, llamado también PLN (procesamiento de lenguaje natural) enfrenta numerosos problemas técnicos. Sin profundizarnos en detalles, se puede decir que a la computadora le resulta mucho más difícil entender el texto que a una persona. Uno de los problemas que enfrenta el PLN es el de la ambigüedad de sentidos de palabras. Una palabra (una cadena de letras) en el texto puede significar varias cosas: por ejemplo, la palabra ?banco? puede referir a una institución financiera, a la orilla del río, a una formación de arena, a un mueble usado para sentarse, etc.; la palabra ?planta? puede referir a una flor, a una fábrica, al fuente industrial de electricidad, la parte del pié, etc. Aunque las personas no lo notamos, casi cualquier palabra en español es ambigua: por ejemplo, la palabra ?palabra? puede referir a una cadena de letras entre espacios, a un mensaje (?la palabra de Dios?), a una promesa (?doy mi palabra?), a una unidad de memoria de computadora (16 bits), etc.

Aunque una palabra es ambigua fuera del contexto, en cada contexto dado refiere a uno sólo de sus significados; por ejemplo, en esta oración la palabra ?palabra? refiere a una cadena de letras. Para el procesamiento correcto del texto es sumamente importante que la computadora pueda identificar el sentido específico de la palabra en el contexto dado. Por ejemplo, para encontrar la información sobre las plantas mexicanas, es indispensable saber en cuáles textos se trata de las flores mexicanas y en cuáles de las fábricas mexicanas. Para traducir correctamente a inglés la frase ?Juan usó el gato para reparar su carro?, es necesario elegir entre las traducciones de la palabra ?gato? como ?cat? o ?jack?. Dado la gran cantidad de textos a procesar, tales decisiones deben tomarse automáticamente, sin participación humana.

La desambiguación de sentidos de palabras (WSD, por sus siglas en inglés: Word Sense Disambiguation) actualmente es una rama muy activa y dinámica de la lingüística computacional y el aprendizaje automático. En el marco del proyecto se hará contribución a este campo de la ciencia, atacando el problema con la aproximación relacionada con el análisis estadístico de las combinaciones de palabras.

RELEVANCIA E IMPORTANCIA

El proyecto contribuirá en la línea general del Laboratorio de la Tecnologías de Lenguaje Natural del CIC-IPN a mi cargo. La línea general de este laboratorio es el desarrollo de los analizadores del texto en español de alta calidad, así como de los recursos léxicos y algorítmicos necesarios para el desarrollo de dichos analizadores y su aplicación.

METODOLOGÍA

El trabajo se basa en las ideas recientemente propuestas por los investigadores líderes del campo de WSD, tales como D. McCarthy et al. (2004), T. Pedersen (2002), R. Mihalcea (2004), entre otros, así como el los desarrollos previos de los investigadores del Laboratorio en la temática del estudio de combinaciones de palabras: Gelbukh y Bolshakov (2002), Bolshakov (2004), Gelbukh y Sidorov (2003), Calvo y Gelbukh (2003), entre otros.

La idea principal de la corriente mencionada de investigación en WSD es la de sustitución de las palabras en el contexto. Dado un texto (llamado en este caso ?contexto?) específico con la palabra ambigua en cuestión, se detectan otras palabras que se pueden usar (se usan en el corpus de textos) en este contexto específico en lugar de la palabra dada. Este conjunto de palabras determina los rasgos semánticos que permiten elegir uno de los sentidos de la palabra. Por ejemplo, para la frase ?Juan usó el gato para reparar su carro? se puede detectar que otras palabras apropiadas en este contexto serían desarmador (?Juan usó un desarmador para reparar su carro?), taladro, pinza, martillo, mientras que las palabras perro, tigre, pantera no son apropiadas en este contexto. Mediante un cálculo (demasiado complexo para explicarlo aquí) sobre las redes semánticas disponibles, el programa puede concluir que el significado deseado de la palabra ?gato? en este contexto específico es el de herramienta. Lo que permite, por ejemplo, elegir su traducción correcta a inglés: ?jack? (y no ?cat?).

El problema de esta aproximación es lo difícil de comparar los contextos (¿dónde termina el contexto de una palabra en un texto largo?) y el hecho de que es muy poco probable encontrar varias ocurrencias de un contexto que exactamente correspondan al contexto original. De esto surge la necesidad de aplicar, por un lado, métodos complejos lingüísticos y estadísticos para la comparación suave (borrosa) de los contextos, y por otro lado, heurísticas lingüísticas para acotar el contexto de modo lingüísticamente razonable, para no perder su coherencia.

En este proyecto se explorarán las posibilidades del uso del contexto constituido por una sola palabra sintácticamente relacionada con la palabra en cuestión, por ejemplo: usar gato, romper gato, gato hidráulico; acariciar gato, alimentar gato, gato siamés. Esta línea se basa en la investigación que durante varios años se conduce en nuestro Laboratorio sobre este tipo de las estructuras lingüísticas. Un diccionario de tales combinaciones permitirá detectar de manera más fácil las palabras en el contexto de la palabra dada, que afectan a la selección de su sentido, sin recurrir a los métodos de análisis sintáctico complejos y en la actualidad poco robustos.

Se investigarán los métodos lingüísticos y estadísticos para la recopilación de una base de datos grande de las combinaciones del tipo mencionado, así como su aplicación para la tarea de WSD. Se compararán los resultados obtenidos con el estado del arte mundial, a través de las colecciones estándar usadas en los concursos mundiales de los programas para WSD, llamados SENSEVAL (en la actualidad están disponibles los datos para el español del SENSEVAL-3). Como resultado se busca avanzar sobre el estado del arte en los porcentajes de reconocimiento del sentido correcto de las palabras en el texto en español.

COORDINACIÓN CON OTROS PROYECTOS DEL GRUPO

El Proyecto se basa en la experiencia de 8 años del grupo de investigación a mi cargo en la investigación de las combinaciones de palabras y sus numerosas aplicaciones. Por ejemplo, en este momento está por terminar una tesis doctoral de un alumno mío dedicada a las aplicaciones de las combinaciones de palabras a la tarea de WSD; una tesis de Maestría en un tema relacionada está en proceso.

El Proyecto está en relación estrecha con otros proyectos miembros del programa propuesto a CGPI en este año. El proyecto del Dr. Bolshakov sobre la detección y corrección de malapropismos, consiste en la detección de que el sentido de una palabra no se puede resolver en un contexto dado, mientras que el de otra parecida sí se puede. La aproximación aplicada en aquel proyecto es complementaria a la abordada aquí, y ambos proyectos beneficiarán significativamente de los resultados del otro (por ejemplo, en el marco del presente Proyecto no está previsto el uso de Internet, el cual es la parte central de la aproximación del Dr. Bolshakov).

El Proyecto del Dr. Sidorov sobre la alineación de los textos bilingües, se basa en la identificación de las traducciones de las palabras de un texto en el otro. Como ya se ha dicho, la tarea de traducción implica previa desambiguación del sentido de la palabra. Lo que permite considerar los resultados del presente Proyecto como un módulo de preprocesamiento de datos para el proyecto del Dr. Sidorov, con las miras a su futura integración en un sistema inteligente para la alineación de textos (una herramienta muy útil en la traducción automática). Por otro lado, los textos alineados en el proyecto del Dr. Sidorov se pueden usar para la detección de sentidos de algunas palabras en el texto bilingüe. Como se sabe de la experiencia previa del trabajo en WSD, tales recursos son de gran ayuda en el desarrollo de los métodos de WSD no supervisados.

Finalmente, en el proyecto del Dr. Yáñez se investigarán ciertas técnicas del análisis estadístico de los datos útiles para su agrupamiento y clasificación. La tarea de WSD es un caso particular de la clasificación (donde las categorías son los sentidos específicos de la palabra dada). Esta tarea está estrechamente relacionada con la tarea de discriminación (a diferencia de desambiguación) de los sentidos de palabras, la cual consiste en la detección automática de contextos en los cuales la palabra dada tiene sentidos diferentes (sin en este momento decidir cuáles); algunas de las técnicas del estado del arte en WSD se basan en previa resolución de esta tarea, la cual puede ser vista como una aplicación de los métodos de agrupamiento. En el presente Proyecto se aplicarán, entre otros, las técnicas investigadas por el Dr. Yáñez. Por otro lado, la retroalimentación desde la aplicación de sus métodos a las tareas del procesamiento automático de texto será de gran utilidad para el Dr. Yáñez, como una de las posibles aplicaciones y generalizaciones de los métodos desarrollados en el marco de aquel proyecto.