Protocolo para Proyectos de Investigación

UBICACIÓN

Procesamiento de texto en lenguaje natural (tal como el español o inglés) es fundamental para el manejo eficiente de información y conocimiento en la época de la sociedad de información. Las aplicaciones principales del procesamiento de lenguaje natural es la búsqueda de información en Internet y en bases de documentos especializados, manejo de documentos, traducción automática e interfaces humano-computadora en lenguaje natural, entre muchas otros.

Uno de los problemas principales en el procesamiento de texto por computadora es ambigüedad. Es el fenómeno de posibles interpretaciones múltiples del segmento de texo; para concluir la tarea, la computadora tiene que eligir una interpretación específica de todas las posibles. Mientras para el lector o hablante humano es una tarea usualmente fácil, no lo es para la computadora, debido a menor conocimiento de ésta última sobre el mundo y dominio del texto en cuestión y menor habilidad para el manejo de lenguaje, la cual los seres humanos se desarrollaron durante su evolución biológica.

Existen diversos tipos de ambigüedad: la ambigüedad de la categoría gramatical (la palabra "habla" es sustantivo en "la comunidad del habla hispana" y verbo en "Juan habla rápido"); la ambigüedad de referencia (la palabra "lo" refiere a plato en "Juan tomó el pastel del plato y lo limpió" y a pastel en "Juan tomó el pastel del plato y lo comió"); la ambigüedad estructural (la preposición "con" modifica a la palabra "comer" en "Juan come arroz con cuchara" y a la palabra "arroz" en "Juan come arroz con leche"). Uno de los tipos de ambigüedad que más atrajo atención de los investigadores en los últimos años es la ambigüedad de sentido de palabra: dependiendo del contexto, la palabra "banco" puede referir a una organización financiera, a un mueble, a la orilla (del río), a un conjunto (de peses), a un almacén (de sangre), etc.

La resolución de ambigüedad de este tipo es indispensable en todas las aplicaciones principales del procesamiento de lenguaje. En la búsqueda, los documentos que mencionan los bancos (de madera) se deben regresar para la petición sobre muebles para sentarse, pero no los documentos que mencionan los bancos (del grupo BBVA). En la traducción automática, la palabra "banco" se debe traducir a inglés como "run" si se trata de peses y como "bench" si se trata del mueble. En la interfaz humano-robot, el robot debe elegir entre orilla, mueble o sucursal para ejecutar el comando de su dueño "Ve al banco y deposita allá todo mi salario".

La otra cara de la ambigüedad es la sinonimía: la necesidad de elegir una realización verbal de un sentido dado. Por ejemplo, dada la idea del pago, se puede expresarla usando las palabras "valor", "dinero", "moneda" o "divisa". La necesidad de elegir automáticamente la palabra apropiada surge en varias aplicaciones tales como la traducción automática (digamos, para traducir la palabra "money" de inglés a español) o interacción hombre-máquina.

El presente proyecto se enfocará en las investigaciones teóricas y empíricas con la finalidad de contribuir a la solución de los problemas de desambiguación de sentido de palabra y (como segunda prioridad) de la selección de palabra en la generación del texto.

ANTECEDENTES

La historia de la investigación en la desambiguación de sentido de palabra cuenta con aproximadamente tres décadas del esfuerzo, dedicado principalmente al idioma inglés (con una cantidad considerable de publicaciones recientes dedicadas al español). Entre las ideas principales en esta área se pueden mencionar el algoritmo de Lesk (completo o simplificado), los dos principios de Yarowsky, así como la reciente revolución estadística en la lingüística computacional y el uso de los métodos de aprendizaje automático.

Los métodos para la resolución del sentido de palabra se puede dividir en los contextuales y los no contextuales. Los primeros eligen el sentido necesario por medio del análisis de contexto; en diferentes contextos la respuesta será diferente. Los segundos siempre dan la misma respuesta; la idea es que al dar la respuesta que más frecuentemente resulta correcta, se alcanza un buen número de aciertos. A la primera vista parece que el primer tipo de los métodos es indudablemente mejor. Pero no necesariamente es así: los métodos de este tipo tienen demasiada poca información para tomar una decisión, y resulta que muy frecuentemente la toman incorrectamente. Mientras que los métodos del segundo tipo usan cantidades enormes del texto para aprender los sentidos más probables.

Uno de los trabajos recientes más importantes sobre la desambiguación de sentido de palabra es el trabajo de McCarthy et al. 2004, el cual demuestra que los métodos no contextuales, y además --lo que es muy importante-- todos no supervisados pueden alcanzar la calidad de solución del problema comparable con la de los métodos contextuales y supervisados actualmente conocidos. Específicamente, este trabajo demuestra que es posible aprender de manera no supervisada el sentido más frecuente de cada palabra, y que este sentido resulta ser lo suficientemente frecuente para que la selección incondicional de este sentido pueda resultar correcta con la frecuencia comparable con la de los métodos contextuales.

El presente proyecto investigará otra aproximación al aprendizaje no supervisado del sentido más frecuente de palabra. Además, el método proporcionará la solución al problema inverso: la selección de la palabra más frecuente para un sentido dado. Lo último será útil para las tareas de generación (al contrario al análisis) de texto y la traducción automática.

Cabe mencionar que en los sistemas prácticos no se usan los métodos individuales sino frecuentemente se aplican diferentes métodos y se elige la respuesta elegida por la mayoría de los métodos usados. Con esto, el avance en el desarrollo de un nuevo método no implica la abolición de los demás métodos conocidos sino una contribución al estado del arte y de la práctica, como una de las fuentes de información que contribuye a la decisión final.

METODOLOGÍA

Técnicamente, la desambiguación del sentido de palabra se puede interpretar como la selección del número de sentido en un diccionario. El diccionario estándar para esta tarea es WordNet (EuroWordNet para el español). En WordNet, los sentidos se representan con synsets: grupos de palabras con (aproximadamente) el mismo significado, por ejemplo: {valor, divisa, moneda} o {valor, coraje, valentía}. La tarea de desambiguación consiste en elegir automáticamente, dado, por ejemplo, el texto "La bolsa de valores aumentó sus operaciones el lunes", uno de los dos synsets mencionados arriba.

La aproximación que se desarrollará en este Proyecto se basa en la selección automática de la llamada palabra dominante del synset. Es un concepto lingüístico que refiere a la palabra de uso mayor y más amplio de un conjunto de sinónimos. Usualmente es la palabra con el significado más amplio y general y estilísticamente menos marcada. Por ejemplo, en los dos synsets mencionados las dominantes son "valor" y "valentía".

Si la dominante de cada synset es conocida, se puede aplicar este conocimiento a las pareas de desambiguación y generación del texto. A saber, en la desambiguación, se debe elegir el synset donde la palabra en cuestión es dominante. En la generación, dado el número de synset, se elige la dominante de este synset.

Se puede ampliar el método con fuentes de evidencia adicionales. Por ejemplo, se determina el peso de importancia de cada synset, y de entre los synsets en los cuales la palabra en cuestión es dominante (si existe más de un synset con esta propiedad) se elige el con mayor importancia. En el proyecto se considerarán varias medidas de importancia. Por ejemplo, se investigarán las ideas tan simples como que los sinsets con mayor número de palabras son de sentido más amplio y consecuentemente son más frecuentes (más importantes). Se considerarán también otras medidas.

Ahora bien, ¿cómo determinaremos la dominante en los synsets? Se usarán diversas heurísticas. La más sencilla es que la dominante es usualmente más corta que otras palabras en el synset; haremos experimentos necesarios para determinar la exactitud de esta heurística. Una heurística más interesante consiste en el análisis de las glosas de las palabras colocadas cerca al synset en cuestión en la red del diccionario WordNet (como métrica se pueden utilizar varias medidas, por ejemplo, las del paquete WordNet::Similarity de Ted Pedersen). La heurística consiste en que la palabra del synset dado que más frecuentemente se usa en las glosas de las palabras cercanas, es la dominante. La justificación teórica consiste en que las glosas usan la palabra más neutra (dominante) para expresar un sentido; la cercanía entre la glosa y el synset se usa para asegurar que la palabra en la glosa tiene el mismo sentido identificado con el synset dado y no algún otro sentido de esta palabra. Es decir, se desarrollará, como una herramienta auxiliar, una técnica para la resolución de sentidos de palabras en las glosas del diccionario. Se usarán otras heurísticas similares, y se estudiará el poder predictivo de las mismas o de su combinación.

Finalmente, se aplicarán los métodos desarrollados para la resolución de ambigüedad y la generación de texto. En la generación, sólo se harán experimentos muy básicos, ya que no es el tema principal del presente Proyecto. El énfasis se hará en la resolución de ambigüedad. Cabe mencionar que no se espera que este método realizado independientemente supere los métodos contextuales. Más bien, el método se usará en combinación con los métodos conceptuales, para los casos (muy frecuentes) cuando el método contextual no tiene información suficiente para tomar la decisión correcta.

El Proyecto utilizará los métodos de lingüística computacional, aprendizaje automático e inteligencia artificial.

RELEVANCIA Y PERTINENCIA

El Proyecto continúe la línea de investigación más importante del Laboratorio de Lenguaje Natural del CIC-IPN. Los integrantes de este Laboratorio, dedicado al desarrollo de los métodos de análisis de texto en español y otros lenguajes, han publicado más de 15 artículos sobre el tema de la resolución de ambigüedad de sentido de palabras; están en desarrollo en la etapa avanzada varias tesis (de Doctorado y Maestría) dedicadas a este tema y los temas afines. En el Proyecto se empleará la infraestructura, el software y datos, así como el personal calificado (estudiantes y profesores) existente en el Laboratorio como el resultado de nuestros proyectos concluidos con CGPI, CONACyT y otras instituciones. Por otro lado, los resultados del Proyecto contribuirán al desarrollo de otros módulos de análisis de lenguaje natural previstos en el plan de trabajo del Laboratorio.