FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2007 - Diciembre 2007)

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis global y local de diccionarios electrónicos para la desambiguación de sentidos de palabras y generación de texto

Registro asignado por la SIP:  20071753  Registro Anterior  20061299   
    Porcentaje de avance:  50   
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
La presente propuesta es la segunda parte del proyecto de mediano plazo registrado en el año 2006 con el mismo título. Para la completitud de la descripción, se incluye en este resumen una introducción al proyecto entero.

UBICACIÓN

Procesamiento de texto en lenguaje natural (tal como el español o inglés) es fundamental para el manejo eficiente de información y conocimiento en la época de la sociedad de información. Las aplicaciones principales del procesamiento de lenguaje natural son: la búsqueda de información en Internet y en bases de documentos especializados, manejo de documentos, traducción automática e interfaces humano-computadora en lenguaje natural, entre muchas otros.

Uno de los problemas principales en el procesamiento de texto por computadora es ambigüedad. Es el fenómeno de posibles interpretaciones múltiples del segmento de texo; para concluir la tarea, la computadora tiene que eligir una interpretación específica de todas las posibles. Mientras para el lector humano es una tarea usualmente fácil, no lo es para la computadora, debido a menor conocimiento de ésta última sobre el mundo y dominio del texto en cuestión y menor habilidad para el manejo de lenguaje, la cual los seres humanos se desarrollaron durante su evolución biológica.

Existen diversos tipos de ambigüedad: la ambigüedad de la categoría gramatical (la palabra "habla" es un sustantivo en "la comunidad del habla hispana", pero es un verbo en "Juan habla rápido"); la ambigüedad de referencia (la palabra "lo" refiere al plato en "Juan tomó el pastel del plato y lo limpió" y al pastel en "Juan tomó el pastel del plato y lo comió"); la ambigüedad estructural (la preposición "con" modifica a la palabra "comer" en "Juan come arroz con cuchara" y a la palabra "arroz" en "Juan come arroz con leche").

Uno de los tipos de ambigüedad que más atrajo atención de los investigadores en los últimos años es la ambigüedad de sentido de palabra: dependiendo del contexto, la palabra "banco" puede referir a una organización financiera, a un mueble, a la orilla (del río), a un conjunto (de peses), a un almacén (de sangre), etc.

La resolución de ambigüedad de este tipo es indispensable en todas las aplicaciones principales del procesamiento de lenguaje. En la búsqueda en Internet, para la petición sobre muebles para sentarse, se deben regresar los documentos que mencionan los bancos (de madera), pero no los documentos que mencionan los bancos (del grupo BBVA). En la traducción automática, la palabra "banco" se debe traducir a inglés como "run" si se trata de peses y como "bench" si se trata del mueble. En la interfaz humano-robot, el robot debe elegir entre orilla, mueble, almacén y sucursal para ejecutar el comando de su dueño "Ve al banco y deposita allá todo mi salario".

La otra cara de la ambigüedad es la sinonimía: la necesidad de elegir una realización verbal de un sentido dado. Por ejemplo, dada la idea del pago, se puede expresarla usando las palabras "valor", "dinero", "moneda" o "divisa". La necesidad de elegir automáticamente la palabra apropiada surge en varias aplicaciones tales como la traducción automática (digamos, para traducir la palabra "money" de inglés a español) o interacción hombre-máquina.

El presente proyecto se enfocará en las investigaciones teóricas y empíricas con la finalidad de contribuir a la solución de los problemas de desambiguación de sentido de palabra y (como segunda prioridad) de la selección de palabra en la generación del texto.

Más específicamente, en la segunda fase del Proyecto (descrita en la presente propuesta) se concentrará en la implementación de los métodos desarrollados en la primera fase y su evaluación, lo cual implicará la implementación de los métodos alternativos, así como de ciertos corpus marcados manualmente.

ANTECEDENTES

La historia de la investigación en la desambiguación de sentido de palabra cuenta con aproximadamente tres décadas del esfuerzo, dedicado principalmente al idioma inglés (con una cantidad considerable de publicaciones recientes dedicadas al español). Entre las ideas principales en esta área se pueden mencionar el algoritmo de Lesk (completo o simplificado), los dos principios de Yarowsky, así como la reciente revolución estadística en la lingüística computacional y el uso de los métodos de aprendizaje automático.

Los métodos para la resolución del sentido de palabra se puede dividir en los contextuales y los no contextuales. Los primeros eligen el sentido necesario por medio del análisis de contexto; en diferentes contextos la respuesta será diferente. Los segundos siempre dan la misma respuesta; la idea es que al dar la respuesta que más frecuentemente resulta correcta, se alcanza un buen número de aciertos. A la primera vista parece que el primer tipo de los métodos es indudablemente mejor. Pero no necesariamente es así: los métodos de este tipo en muchas ocasiones tienen información insuficiente para tomar una decisión informada, y resulta que frecuentemente la toman incorrectamente. Mientras que los métodos del segundo tipo usan cantidades enormes de texto para aprender los sentidos más probables, y en muchas ocasiones cuentan con la información mucho más confiable para sus decisiones.

Uno de los trabajos recientes más importantes sobre la desambiguación de sentido de palabra es el trabajo de McCarthy et al. 2004, el cual demuestra que los métodos no contextuales, y además --lo que es muy importante-- los no supervisados (es decir, los que no usan aprendizaje a través de ejemplos construidos a mano) pueden alcanzar la calidad de solución del problema comparable con la de los métodos contextuales y supervisados actualmente conocidos. Específicamente, aquel trabajo demuestra que es posible aprender de manera no supervisada el sentido más frecuente de cada palabra, y que este sentido resulta ser lo suficientemente frecuente para que la selección incondicional de este sentido pueda resultar correcta con la frecuencia comparable con la de los métodos contextuales.

El presente proyecto investigará otra aproximación al aprendizaje no supervisado del sentido más frecuente de palabra. Además, el método proporcionará la solución al problema inverso: la selección de la palabra más frecuente para un sentido dado. Lo último será útil para las tareas de generación (al contrario al análisis) de texto y la traducción automática.

Cabe mencionar que en los sistemas prácticos no se usan los métodos individuales sino frecuentemente se aplican diferentes métodos y se elige la respuesta que da la mayoría de los métodos usados. Con esto, el avance en el desarrollo de un nuevo método no implica la abolición de los demás métodos conocidos sino una contribución al estado del arte y de la práctica, como una de las fuentes de información que contribuye a la decisión final. Consecuentemente, el presente proyecto no busca construir un método para la desambiguación que sea superior a todos los existenes, sino una aproximación nueva, la cual enriquece a los métodos existentes en el sentido que en combinación con ellos sí llevará a un método combinado mejor que los existentes (aunque la construcción de tal método combinado está fuera del alcance de este Proyecto).

METODOLOGÍA

Técnicamente, la desambiguación del sentido de palabra se puede interpretar como la selección del número de sentido en un diccionario. El diccionario estándar para esta tarea es WordNet (EuroWordNet para el español). En WordNet, los sentidos se representan con synsets: grupos de palabras con (aproximadamente) el mismo significado, por ejemplo: {valor, divisa, moneda} o {valor, coraje, valentía}. La tarea de desambiguación consiste en elegir automáticamente, dado, por ejemplo, el texto "La bolsa de valores aumentó sus operaciones el lunes", uno de los dos synsets mencionados arriba.

La aproximación que se está desarrollando en este Proyecto se basa en la selección automática de la llamada palabra dominante del synset. Es un concepto lingüístico que refiere a la palabra de uso mayor y más amplio de un conjunto de sinónimos. Usualmente es la palabra con el significado más amplio y general y estilísticamente menos marcada. Por ejemplo, en los dos synsets mencionados las dominantes son "valor" y "valentía".

Si la dominante de cada synset es conocida, se puede aplicar este conocimiento a las pareas de desambiguación y generación del texto. A saber, en la desambiguación, se debe elegir el synset donde la palabra en cuestión es dominante. En la generación, dado el número de synset, se elige la dominante de este synset.

Es posible ampliar el método con fuentes de evidencia adicionales. Por ejemplo, se determina el peso de importancia de cada synset, y de entre los synsets en los cuales la palabra en cuestión es dominante (si existe más de un synset con esta propiedad) se elige el con mayor importancia. En el proyecto se están considerando varias medidas de importancia. Por ejemplo, se investigaron las ideas tan simples como que los sinsets con mayor número de palabras son de sentido más amplio y consecuentemente son más frecuentes (más importantes). En la segunda fase del Proyecto (reflejada en la presente propuesta) se considerarán también otras medidas.

Ahora bien, ¿cómo determinamos la dominante en los synsets? En la primera fase se han desarrollado diversas heurísticas. La más sencilla es que la dominante es usualmente más corta que otras palabras en el synset; en la segunda fase se evaluará la exactitud de esta heurística. Una heurística más interesante consiste en el análisis de las glosas de las palabras colocadas cerca al synset en cuestión en la red del diccionario WordNet (como métrica se utilizan varias medidas, por ejemplo, las del paquete WordNet::Similarity de Ted Pedersen). La heurística consiste en que la palabra que más frecuentemente se usa en las glosas de las palabras cercanas, es la dominante del synset dado. La justificación teórica consiste en que las glosas usan la palabra más neutra (dominante) para expresar un sentido; la cercanía entre la glosa y el synset se usa para asegurar que la palabra en la glosa tiene el mismo sentido identificado con el synset dado y no algún otro sentido de esta palabra. En esta segunda fase se desarrollará, como una herramienta auxiliar, una técnica para la resolución de sentidos de palabras en las glosas del diccionario. Se usarán otras heurísticas similares, y se estudiará el poder predictivo de las mismas o de su combinación.

Finalmente, se aplicarán los métodos desarrollados para la resolución de ambigüedad y la generación de texto. En la generación, sólo se harán experimentos muy básicos, ya que no es el tema principal del presente Proyecto. El énfasis se hará en la resolución de ambigüedad.

El Proyecto utiliza los métodos de lingüística computacional, aprendizaje automático e inteligencia artificial.

RELEVANCIA Y PERTINENCIA

El Proyecto continúe la línea de investigación más importante del Laboratorio de Lenguaje Natural y Procesamiento de Texto del CIC-IPN. Los integrantes de este Laboratorio dedicado al desarrollo de los métodos de análisis de texto en español y otros lenguajes, han publicado alrededor de 20 artículos sobre el tema de la resolución de ambigüedad de sentido de palabras; se han concluido o están en desarrollo varias tesis de Doctorado dedicadas a este tema y los temas afines (específicamente, en el marco de la primera fase del presente proyecto se han concluido una tesis de Maestría con mención honorífica y una tesis de Doctorado). En el Proyecto se emplea la infraestructura, el software y datos, así como el personal calificado (estudiantes y profesores) existente en el Laboratorio como el resultado de nuestros proyectos concluidos con la SIP, CONACyT y otras instituciones. Por otro lado, los resultados del Proyecto contribuirán al desarrollo de otros módulos de análisis de lenguaje natural previstos en el plan de trabajo del Laboratorio.

1.2 Objetivo general
Investigación en los métodos para la desambigüación de sentido de palabra y parcialmente para la selección de palabras en la generación y traducción del texto, basados en el análisis estadístico local y global de los diccionarios electrónicos, sobre todo, en las heuristicas relacionadas con la determinación automática del sinónimo dominante en los synsets del diccionario.

1.3 Objetivos específicos
1) Una base de datos de los synsets del diccionario WordNet (y/o otros diccionarios electrónicos) con la dominante determinada; 2) Programas que realizan tal detección en las versiones futuras de dichos diccionarios, así como permitan mejorar las heurísticas existentes y agregar nuevas; 3) métodos para la aplicación de tal base de datos a las tareas de la resolución de ambigüedad de sentido de pal

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
Desarrollo de los principios lingüísticos para el procesamiento de los diccionarios. Nótese que por su educación es lingüísta, además de tener una experiencia de 15 años en programación. Realización de varios algoritmos de análisis de diccionarios. Tiene SNI II.
3 Igor Bolshakov Mironova
  
Estudios en los métodos estadísticos y de aprendizaje automático para el análisis de diccionarios y para la desambiguación de sentido de palabras en el texto. Consultoría general en el proyecto. Por su educación es especialista en las estadísticas, con una experiencia de 30 años de trabajo en el análisis de texto. Tiene SNI III.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Macario Hernández Cruz TS Análisis semántico del texto en español
2 Yulia Ledeneva - PF Realización y evaluación de las heurísticas para la búsqueda de las dominantes en los synsets del diccionario.
3 Steve Legrand - TS Investigación en los métodos de desambigüación de sentido de palabras, comparación de los desultados obtenidos con los métodos existentes.
4 Tania Lugo García TS Construcción de la base de datos estadística para el español
5 Javier Tejada Cárcamo PF Desarrollo y realización de los métodos estadísticos para la resolución de sentido de palabras en los textos y en las glosas de WordNet.
6 Sulema Torres Ramos PF Realización de herramientas para el manejo de los diccionarios; conversión de los diccionarios en el formato de bases de datos. Realización de pruebas.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2007 - Diciembre 2007)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Resolución de sentidos de palabras en las glosas de WordNet
Implementar el método de resolución de sentidos de palabras en el diccionario WordNet. El método consistirá en la selección del sentido más próximo, en una de las medidas en WordNet, tal como Hirst-StOnge.
Enero 2007 Enero 2007
2 10 Evaluación de la resolución de sentidos en las glosas de WordNet
Evaluar el desempeño del punto anterior comparando sus resultados con el diccionario XWN disponible para el inglés. Para eso, 1) implementar el método para inglés, 2) convertir el diccionario XWN en formato de una base de datos, 3) comparar. Eso nos dará una idea aproximada del desempeño del método para el español.
Febrero 2007 Marzo 2007
3 10 Implementación y evaluación de heurísticas para seleccionar sinónimos dominantes
Se implementarán las herísticas para la determinación del sinónimo dominante. Luego, se elaborará un corpus con marcaje manual. Luego, los resultados obtenidos del algoritmo se compararán con tal corpus.
Abril 2007 Abril 2007
4 10 Estudio de diferentes medidas de importancia de sentidos
Se estudiarán e implementarán diferentes medidas de importancia apriori de los sinsets. Se efectuará una evaluación preliminar por medio de análisis manual.
Mayo 2007 Mayo 2007
5 8 Implementación de WSD con sólo medidas de importancia
Se aplicarán los resultados del punto anterior a la construcción de un sistema de desambiguación de sentidos (WSD). En caso de éxito, resultará en un nuevo método para la WSD.
Junio 2007 Junio 2007
6 8 Implementación de WSD con sólo los sinónimos dominantes
Se aplicarán los resultados del punto 3 (determinación de los sinónimos dominantes) a la construcción de un sistema de desambiguación de sentidos (WSD). En caso de éxito, resultará en un nuevo método para la WSD.
Julio 2007 Julio 2007
7 8 Implementación de WSD con la información combinada
Se combinará la información de los dos pasos anteriores, para construir un sistema para WSD mejorado. Se espera que los resultados sean superiores a los dos puntos anteriores.
Agosto 2007 Agosto 2007
8 10 Publicaciones e informes
Generar publicaciones e informes para la difusión de los resultados obtenidos. Preparar las tesis.
Agosto 2007 Diciembre 2007
9 8 Implementación de otros métodos de WSD para la comparación
Implementar varios otros métodos de WSD, para poder comparar los resultados del método desarrollado con el desempeño de otros métodos existentes, en los mismos datos y con las mismas condiciones. Es un requisito indispensable para la publicación de los resultados.
Septiembre 2007 Septiembre 2007
10 10 Estudio del funcionamiento del método con diferentes tipos de palabras
Clasificar las palambras en diferentes tipos, tales como de sentidos finos/gruesos (fine-grained vs. coarse-grained senses). Estudiar los efectos del método desarrollado en diferentes clases. Es necesario para combinar el método desarrollado con otros métodos, eligiendo el mejor método para cada tipo de palabras.
Octubre 2007 Octubre 2007
11 8 Pruebas con generación de texto
Implementar un método básico para generación de texto. Aplicar el el método de generación con los sinónimos dominantes marcados. Comparar los resultados con generación con sinónimos aleatorios.
Noviembre 2007 Noviembre 2007
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Bases de datos, diccionarios, corpus de texto, software para el análisis de texto. Estos datos, especialmente los corpus, pueden ser costosos.

Libros y revistas especializados en el área.

Software general: actualizaciones de los sistemas operativos, paquetería, programas de correo y comunicación, controladores, antivirus, otros programas para el mantenimiento de la PC, programas diversos.

CDs y DVDs gravables y regravables, para los respaldos regulares y transportación y resguardo de grandes volúmenes de datos y los resultados intermedios.

Papel, para impresión de borradores, artículos, informes, etc.; así como para la distribución de los resultados del proyecto a los asistentes de congresos y seminarios.

Cartuchos para las impresores láser.

Materiales de oficina diversos, tales como plumas, plumones, tijeras, etc.

Partes para reparación menor, actualización y expansión del equipo de cómputo, tales como discos duros grandes, adaptadores de red, memorias, unidades de grabación de CD y DVD, dispositivos diversos, etc.

Nota: Se especifícan los gastos por un año de operación.
26000   
3000  Gastos de transporte y estancia de los investigadores y estudiantes para el intercambio de visitas de colaboración y participación en reuniones de trabajo con colegas tanto dentro del país como en el extranjero. La comunicación y movilidad de los investigadores y sobre todo los estudiantes es un factor muy importante para las actividades de investigación y aprendizaje.

Gastos de transporte y estancia para presentar los resultados del proyecto en pláticas magistrales e invitadas.

Gastos para la impresión de los informes y/o libros derivados de las actividades del proyecto.

Gastos para engargolados y copias de los materiales impresos necesarios.

Pago de derechos por publicaión de artículos en foros o revistas de alto prestigio.

Nota: Se especifícan los gastos por un año de operación.
37000   
4000      
5000      
7000      
Total:  $ 63000