Protocolo para Proyectos de Investigación

La presente propuesta es la segunda parte del proyecto de mediano plazo registrado en el año 2006 con el mismo título. Para la completitud de la descripción, se incluye en este resumen una introducción al proyecto entero.

UBICACIÓN

Procesamiento de texto en lenguaje natural (tal como el español o inglés) es fundamental para el manejo eficiente de información y conocimiento en la época de la sociedad de información. Las aplicaciones principales del procesamiento de lenguaje natural son: la búsqueda de información en Internet y en bases de documentos especializados, manejo de documentos, traducción automática e interfaces humano-computadora en lenguaje natural, entre muchas otros.

Uno de los problemas principales en el procesamiento de texto por computadora es ambigüedad. Es el fenómeno de posibles interpretaciones múltiples del segmento de texo; para concluir la tarea, la computadora tiene que eligir una interpretación específica de todas las posibles. Mientras para el lector humano es una tarea usualmente fácil, no lo es para la computadora, debido a menor conocimiento de ésta última sobre el mundo y dominio del texto en cuestión y menor habilidad para el manejo de lenguaje, la cual los seres humanos se desarrollaron durante su evolución biológica.

Existen diversos tipos de ambigüedad: la ambigüedad de la categoría gramatical (la palabra "habla" es un sustantivo en "la comunidad del habla hispana", pero es un verbo en "Juan habla rápido"); la ambigüedad de referencia (la palabra "lo" refiere al plato en "Juan tomó el pastel del plato y lo limpió" y al pastel en "Juan tomó el pastel del plato y lo comió"); la ambigüedad estructural (la preposición "con" modifica a la palabra "comer" en "Juan come arroz con cuchara" y a la palabra "arroz" en "Juan come arroz con leche").

Uno de los tipos de ambigüedad que más atrajo atención de los investigadores en los últimos años es la ambigüedad de sentido de palabra: dependiendo del contexto, la palabra "banco" puede referir a una organización financiera, a un mueble, a la orilla (del río), a un conjunto (de peses), a un almacén (de sangre), etc.

La resolución de ambigüedad de este tipo es indispensable en todas las aplicaciones principales del procesamiento de lenguaje. En la búsqueda en Internet, para la petición sobre muebles para sentarse, se deben regresar los documentos que mencionan los bancos (de madera), pero no los documentos que mencionan los bancos (del grupo BBVA). En la traducción automática, la palabra "banco" se debe traducir a inglés como "run" si se trata de peses y como "bench" si se trata del mueble. En la interfaz humano-robot, el robot debe elegir entre orilla, mueble, almacén y sucursal para ejecutar el comando de su dueño "Ve al banco y deposita allá todo mi salario".

La otra cara de la ambigüedad es la sinonimía: la necesidad de elegir una realización verbal de un sentido dado. Por ejemplo, dada la idea del pago, se puede expresarla usando las palabras "valor", "dinero", "moneda" o "divisa". La necesidad de elegir automáticamente la palabra apropiada surge en varias aplicaciones tales como la traducción automática (digamos, para traducir la palabra "money" de inglés a español) o interacción hombre-máquina.

El presente proyecto se enfocará en las investigaciones teóricas y empíricas con la finalidad de contribuir a la solución de los problemas de desambiguación de sentido de palabra y (como segunda prioridad) de la selección de palabra en la generación del texto.

Más específicamente, en la segunda fase del Proyecto (descrita en la presente propuesta) se concentrará en la implementación de los métodos desarrollados en la primera fase y su evaluación, lo cual implicará la implementación de los métodos alternativos, así como de ciertos corpus marcados manualmente.

ANTECEDENTES

La historia de la investigación en la desambiguación de sentido de palabra cuenta con aproximadamente tres décadas del esfuerzo, dedicado principalmente al idioma inglés (con una cantidad considerable de publicaciones recientes dedicadas al español). Entre las ideas principales en esta área se pueden mencionar el algoritmo de Lesk (completo o simplificado), los dos principios de Yarowsky, así como la reciente revolución estadística en la lingüística computacional y el uso de los métodos de aprendizaje automático.

Los métodos para la resolución del sentido de palabra se puede dividir en los contextuales y los no contextuales. Los primeros eligen el sentido necesario por medio del análisis de contexto; en diferentes contextos la respuesta será diferente. Los segundos siempre dan la misma respuesta; la idea es que al dar la respuesta que más frecuentemente resulta correcta, se alcanza un buen número de aciertos. A la primera vista parece que el primer tipo de los métodos es indudablemente mejor. Pero no necesariamente es así: los métodos de este tipo en muchas ocasiones tienen información insuficiente para tomar una decisión informada, y resulta que frecuentemente la toman incorrectamente. Mientras que los métodos del segundo tipo usan cantidades enormes de texto para aprender los sentidos más probables, y en muchas ocasiones cuentan con la información mucho más confiable para sus decisiones.

Uno de los trabajos recientes más importantes sobre la desambiguación de sentido de palabra es el trabajo de McCarthy et al. 2004, el cual demuestra que los métodos no contextuales, y además --lo que es muy importante-- los no supervisados (es decir, los que no usan aprendizaje a través de ejemplos construidos a mano) pueden alcanzar la calidad de solución del problema comparable con la de los métodos contextuales y supervisados actualmente conocidos. Específicamente, aquel trabajo demuestra que es posible aprender de manera no supervisada el sentido más frecuente de cada palabra, y que este sentido resulta ser lo suficientemente frecuente para que la selección incondicional de este sentido pueda resultar correcta con la frecuencia comparable con la de los métodos contextuales.

El presente proyecto investigará otra aproximación al aprendizaje no supervisado del sentido más frecuente de palabra. Además, el método proporcionará la solución al problema inverso: la selección de la palabra más frecuente para un sentido dado. Lo último será útil para las tareas de generación (al contrario al análisis) de texto y la traducción automática.

Cabe mencionar que en los sistemas prácticos no se usan los métodos individuales sino frecuentemente se aplican diferentes métodos y se elige la respuesta que da la mayoría de los métodos usados. Con esto, el avance en el desarrollo de un nuevo método no implica la abolición de los demás métodos conocidos sino una contribución al estado del arte y de la práctica, como una de las fuentes de información que contribuye a la decisión final. Consecuentemente, el presente proyecto no busca construir un método para la desambiguación que sea superior a todos los existenes, sino una aproximación nueva, la cual enriquece a los métodos existentes en el sentido que en combinación con ellos sí llevará a un método combinado mejor que los existentes (aunque la construcción de tal método combinado está fuera del alcance de este Proyecto).

METODOLOGÍA

Técnicamente, la desambiguación del sentido de palabra se puede interpretar como la selección del número de sentido en un diccionario. El diccionario estándar para esta tarea es WordNet (EuroWordNet para el español). En WordNet, los sentidos se representan con synsets: grupos de palabras con (aproximadamente) el mismo significado, por ejemplo: {valor, divisa, moneda} o {valor, coraje, valentía}. La tarea de desambiguación consiste en elegir automáticamente, dado, por ejemplo, el texto "La bolsa de valores aumentó sus operaciones el lunes", uno de los dos synsets mencionados arriba.

La aproximación que se está desarrollando en este Proyecto se basa en la selección automática de la llamada palabra dominante del synset. Es un concepto lingüístico que refiere a la palabra de uso mayor y más amplio de un conjunto de sinónimos. Usualmente es la palabra con el significado más amplio y general y estilísticamente menos marcada. Por ejemplo, en los dos synsets mencionados las dominantes son "valor" y "valentía".

Si la dominante de cada synset es conocida, se puede aplicar este conocimiento a las pareas de desambiguación y generación del texto. A saber, en la desambiguación, se debe elegir el synset donde la palabra en cuestión es dominante. En la generación, dado el número de synset, se elige la dominante de este synset.

Es posible ampliar el método con fuentes de evidencia adicionales. Por ejemplo, se determina el peso de importancia de cada synset, y de entre los synsets en los cuales la palabra en cuestión es dominante (si existe más de un synset con esta propiedad) se elige el con mayor importancia. En el proyecto se están considerando varias medidas de importancia. Por ejemplo, se investigaron las ideas tan simples como que los sinsets con mayor número de palabras son de sentido más amplio y consecuentemente son más frecuentes (más importantes). En la segunda fase del Proyecto (reflejada en la presente propuesta) se considerarán también otras medidas.

Ahora bien, ¿cómo determinamos la dominante en los synsets? En la primera fase se han desarrollado diversas heurísticas. La más sencilla es que la dominante es usualmente más corta que otras palabras en el synset; en la segunda fase se evaluará la exactitud de esta heurística. Una heurística más interesante consiste en el análisis de las glosas de las palabras colocadas cerca al synset en cuestión en la red del diccionario WordNet (como métrica se utilizan varias medidas, por ejemplo, las del paquete WordNet::Similarity de Ted Pedersen). La heurística consiste en que la palabra que más frecuentemente se usa en las glosas de las palabras cercanas, es la dominante del synset dado. La justificación teórica consiste en que las glosas usan la palabra más neutra (dominante) para expresar un sentido; la cercanía entre la glosa y el synset se usa para asegurar que la palabra en la glosa tiene el mismo sentido identificado con el synset dado y no algún otro sentido de esta palabra. En esta segunda fase se desarrollará, como una herramienta auxiliar, una técnica para la resolución de sentidos de palabras en las glosas del diccionario. Se usarán otras heurísticas similares, y se estudiará el poder predictivo de las mismas o de su combinación.

Finalmente, se aplicarán los métodos desarrollados para la resolución de ambigüedad y la generación de texto. En la generación, sólo se harán experimentos muy básicos, ya que no es el tema principal del presente Proyecto. El énfasis se hará en la resolución de ambigüedad.

El Proyecto utiliza los métodos de lingüística computacional, aprendizaje automático e inteligencia artificial.

RELEVANCIA Y PERTINENCIA

El Proyecto continúe la línea de investigación más importante del Laboratorio de Lenguaje Natural y Procesamiento de Texto del CIC-IPN. Los integrantes de este Laboratorio dedicado al desarrollo de los métodos de análisis de texto en español y otros lenguajes, han publicado alrededor de 20 artículos sobre el tema de la resolución de ambigüedad de sentido de palabras; se han concluido o están en desarrollo varias tesis de Doctorado dedicadas a este tema y los temas afines (específicamente, en el marco de la primera fase del presente proyecto se han concluido una tesis de Maestría con mención honorífica y una tesis de Doctorado). En el Proyecto se emplea la infraestructura, el software y datos, así como el personal calificado (estudiantes y profesores) existente en el Laboratorio como el resultado de nuestros proyectos concluidos con la SIP, CONACyT y otras instituciones. Por otro lado, los resultados del Proyecto contribuirán al desarrollo de otros módulos de análisis de lenguaje natural previstos en el plan de trabajo del Laboratorio.