INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2006 - Diciembre 2006)

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis global y local de diccionarios electrónicos para la desambiguación de sentidos de palabras y generación de texto

Registro asignado por la SIP:  20061299     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
UBICACIÓN

Procesamiento de texto en lenguaje natural (tal como el español o inglés) es fundamental para el manejo eficiente de información y conocimiento en la época de la sociedad de información. Las aplicaciones principales del procesamiento de lenguaje natural es la búsqueda de información en Internet y en bases de documentos especializados, manejo de documentos, traducción automática e interfaces humano-computadora en lenguaje natural, entre muchas otros.

Uno de los problemas principales en el procesamiento de texto por computadora es ambigüedad. Es el fenómeno de posibles interpretaciones múltiples del segmento de texo; para concluir la tarea, la computadora tiene que eligir una interpretación específica de todas las posibles. Mientras para el lector o hablante humano es una tarea usualmente fácil, no lo es para la computadora, debido a menor conocimiento de ésta última sobre el mundo y dominio del texto en cuestión y menor habilidad para el manejo de lenguaje, la cual los seres humanos se desarrollaron durante su evolución biológica.

Existen diversos tipos de ambigüedad: la ambigüedad de la categoría gramatical (la palabra "habla" es sustantivo en "la comunidad del habla hispana" y verbo en "Juan habla rápido"); la ambigüedad de referencia (la palabra "lo" refiere a plato en "Juan tomó el pastel del plato y lo limpió" y a pastel en "Juan tomó el pastel del plato y lo comió"); la ambigüedad estructural (la preposición "con" modifica a la palabra "comer" en "Juan come arroz con cuchara" y a la palabra "arroz" en "Juan come arroz con leche"). Uno de los tipos de ambigüedad que más atrajo atención de los investigadores en los últimos años es la ambigüedad de sentido de palabra: dependiendo del contexto, la palabra "banco" puede referir a una organización financiera, a un mueble, a la orilla (del río), a un conjunto (de peses), a un almacén (de sangre), etc.

La resolución de ambigüedad de este tipo es indispensable en todas las aplicaciones principales del procesamiento de lenguaje. En la búsqueda, los documentos que mencionan los bancos (de madera) se deben regresar para la petición sobre muebles para sentarse, pero no los documentos que mencionan los bancos (del grupo BBVA). En la traducción automática, la palabra "banco" se debe traducir a inglés como "run" si se trata de peses y como "bench" si se trata del mueble. En la interfaz humano-robot, el robot debe elegir entre orilla, mueble o sucursal para ejecutar el comando de su dueño "Ve al banco y deposita allá todo mi salario".

La otra cara de la ambigüedad es la sinonimía: la necesidad de elegir una realización verbal de un sentido dado. Por ejemplo, dada la idea del pago, se puede expresarla usando las palabras "valor", "dinero", "moneda" o "divisa". La necesidad de elegir automáticamente la palabra apropiada surge en varias aplicaciones tales como la traducción automática (digamos, para traducir la palabra "money" de inglés a español) o interacción hombre-máquina.

El presente proyecto se enfocará en las investigaciones teóricas y empíricas con la finalidad de contribuir a la solución de los problemas de desambiguación de sentido de palabra y (como segunda prioridad) de la selección de palabra en la generación del texto.

ANTECEDENTES

La historia de la investigación en la desambiguación de sentido de palabra cuenta con aproximadamente tres décadas del esfuerzo, dedicado principalmente al idioma inglés (con una cantidad considerable de publicaciones recientes dedicadas al español). Entre las ideas principales en esta área se pueden mencionar el algoritmo de Lesk (completo o simplificado), los dos principios de Yarowsky, así como la reciente revolución estadística en la lingüística computacional y el uso de los métodos de aprendizaje automático.

Los métodos para la resolución del sentido de palabra se puede dividir en los contextuales y los no contextuales. Los primeros eligen el sentido necesario por medio del análisis de contexto; en diferentes contextos la respuesta será diferente. Los segundos siempre dan la misma respuesta; la idea es que al dar la respuesta que más frecuentemente resulta correcta, se alcanza un buen número de aciertos. A la primera vista parece que el primer tipo de los métodos es indudablemente mejor. Pero no necesariamente es así: los métodos de este tipo tienen demasiada poca información para tomar una decisión, y resulta que muy frecuentemente la toman incorrectamente. Mientras que los métodos del segundo tipo usan cantidades enormes del texto para aprender los sentidos más probables.

Uno de los trabajos recientes más importantes sobre la desambiguación de sentido de palabra es el trabajo de McCarthy et al. 2004, el cual demuestra que los métodos no contextuales, y además --lo que es muy importante-- todos no supervisados pueden alcanzar la calidad de solución del problema comparable con la de los métodos contextuales y supervisados actualmente conocidos. Específicamente, este trabajo demuestra que es posible aprender de manera no supervisada el sentido más frecuente de cada palabra, y que este sentido resulta ser lo suficientemente frecuente para que la selección incondicional de este sentido pueda resultar correcta con la frecuencia comparable con la de los métodos contextuales.

El presente proyecto investigará otra aproximación al aprendizaje no supervisado del sentido más frecuente de palabra. Además, el método proporcionará la solución al problema inverso: la selección de la palabra más frecuente para un sentido dado. Lo último será útil para las tareas de generación (al contrario al análisis) de texto y la traducción automática.

Cabe mencionar que en los sistemas prácticos no se usan los métodos individuales sino frecuentemente se aplican diferentes métodos y se elige la respuesta elegida por la mayoría de los métodos usados. Con esto, el avance en el desarrollo de un nuevo método no implica la abolición de los demás métodos conocidos sino una contribución al estado del arte y de la práctica, como una de las fuentes de información que contribuye a la decisión final.

METODOLOGÍA

Técnicamente, la desambiguación del sentido de palabra se puede interpretar como la selección del número de sentido en un diccionario. El diccionario estándar para esta tarea es WordNet (EuroWordNet para el español). En WordNet, los sentidos se representan con synsets: grupos de palabras con (aproximadamente) el mismo significado, por ejemplo: {valor, divisa, moneda} o {valor, coraje, valentía}. La tarea de desambiguación consiste en elegir automáticamente, dado, por ejemplo, el texto "La bolsa de valores aumentó sus operaciones el lunes", uno de los dos synsets mencionados arriba.

La aproximación que se desarrollará en este Proyecto se basa en la selección automática de la llamada palabra dominante del synset. Es un concepto lingüístico que refiere a la palabra de uso mayor y más amplio de un conjunto de sinónimos. Usualmente es la palabra con el significado más amplio y general y estilísticamente menos marcada. Por ejemplo, en los dos synsets mencionados las dominantes son "valor" y "valentía".

Si la dominante de cada synset es conocida, se puede aplicar este conocimiento a las pareas de desambiguación y generación del texto. A saber, en la desambiguación, se debe elegir el synset donde la palabra en cuestión es dominante. En la generación, dado el número de synset, se elige la dominante de este synset.

Se puede ampliar el método con fuentes de evidencia adicionales. Por ejemplo, se determina el peso de importancia de cada synset, y de entre los synsets en los cuales la palabra en cuestión es dominante (si existe más de un synset con esta propiedad) se elige el con mayor importancia. En el proyecto se considerarán varias medidas de importancia. Por ejemplo, se investigarán las ideas tan simples como que los sinsets con mayor número de palabras son de sentido más amplio y consecuentemente son más frecuentes (más importantes). Se considerarán también otras medidas.

Ahora bien, ¿cómo determinaremos la dominante en los synsets? Se usarán diversas heurísticas. La más sencilla es que la dominante es usualmente más corta que otras palabras en el synset; haremos experimentos necesarios para determinar la exactitud de esta heurística. Una heurística más interesante consiste en el análisis de las glosas de las palabras colocadas cerca al synset en cuestión en la red del diccionario WordNet (como métrica se pueden utilizar varias medidas, por ejemplo, las del paquete WordNet::Similarity de Ted Pedersen). La heurística consiste en que la palabra del synset dado que más frecuentemente se usa en las glosas de las palabras cercanas, es la dominante. La justificación teórica consiste en que las glosas usan la palabra más neutra (dominante) para expresar un sentido; la cercanía entre la glosa y el synset se usa para asegurar que la palabra en la glosa tiene el mismo sentido identificado con el synset dado y no algún otro sentido de esta palabra. Es decir, se desarrollará, como una herramienta auxiliar, una técnica para la resolución de sentidos de palabras en las glosas del diccionario. Se usarán otras heurísticas similares, y se estudiará el poder predictivo de las mismas o de su combinación.

Finalmente, se aplicarán los métodos desarrollados para la resolución de ambigüedad y la generación de texto. En la generación, sólo se harán experimentos muy básicos, ya que no es el tema principal del presente Proyecto. El énfasis se hará en la resolución de ambigüedad. Cabe mencionar que no se espera que este método realizado independientemente supere los métodos contextuales. Más bien, el método se usará en combinación con los métodos conceptuales, para los casos (muy frecuentes) cuando el método contextual no tiene información suficiente para tomar la decisión correcta.

El Proyecto utilizará los métodos de lingüística computacional, aprendizaje automático e inteligencia artificial.

RELEVANCIA Y PERTINENCIA

El Proyecto continúe la línea de investigación más importante del Laboratorio de Lenguaje Natural del CIC-IPN. Los integrantes de este Laboratorio, dedicado al desarrollo de los métodos de análisis de texto en español y otros lenguajes, han publicado más de 15 artículos sobre el tema de la resolución de ambigüedad de sentido de palabras; están en desarrollo en la etapa avanzada varias tesis (de Doctorado y Maestría) dedicadas a este tema y los temas afines. En el Proyecto se empleará la infraestructura, el software y datos, así como el personal calificado (estudiantes y profesores) existente en el Laboratorio como el resultado de nuestros proyectos concluidos con CGPI, CONACyT y otras instituciones. Por otro lado, los resultados del Proyecto contribuirán al desarrollo de otros módulos de análisis de lenguaje natural previstos en el plan de trabajo del Laboratorio.

1.2 Objetivo general
Investigación en los métodos para la desambigüación de sentido de palabra y parcialmente para la selección de palabras en la generación y traducción del texto, basados en el análisis estadístico local y global de los diccionarios electrónicos, sobre todo, en las heuristicas relacionadas con la determinación automática del sinónimo dominante en los synsets del diccionario.

1.3 Objetivos específicos
1) Una base de datos de los synsets del diccionario WordNet (y/o otros diccionarios electrónicos) con la dominante determinada; 2) Programas que realizan tal detección en las versiones futuras de dichos diccionarios, así como permitan mejorar las heurísticas existentes y agregar nuevas; 3) métodos para la aplicación de tal base de datos a las tareas de la resolución de ambigüedad de sentido de pal

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Igor Bolshakov Mironova
  
Estudios en los métodos estadísticos y de aprendizaje automático para el análisis de diccionarios y para la desambiguación de sentido de palabras en el texto. Consultoría general en el proyecto. Por su educación es especialista en las estadísticas, con una experiencia de 30 años de trabajo en el análisis de texto. Tiene SNI III.
3 Grigori Sidorov -
  
Desarrollo de los principios lingüísticos para el procesamiento de los diccionarios. Nótese que por su educación es lingüísta, además de tener una experiencia de 15 años en programación. Realización de varios algoritmos de análisis de diccionarios. Tiene SNI II.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Hiram Calvo Castro PF Realización de las heurísticas para la búsqueda de las dominantes en los synsets del diccionario.
2 Hiram Calvo Castro TS Estudios en la literatura especializada de lexicografía. Formulación y verificación de las heurísticas básicas.
3 Steve Legrand - PF Investigación en los métodos de desambigüación de sentido de palabras, comparación de los métodos existentes y selección de los mejores. Experimentación con el corpus, evaluación de los resultados y elaboración de las implicaciones teóricas a ser realizadas en la segunda etapa del proyecto.
4 Steve Legrand -- TS Investigación en los métodos de desambigüación de sentido de palabras, comparación de los métodos existentes y selección de los mejores. Experimentación con el corpus, evaluación de los resultados y elaboración de las implicaciones teóricas a ser realizadas en la segunda etapa del proyecto.
5 Javier Tejada Cárcamo PF Desarrollo y realización de los métodos estadísticos para la resolución de sentido de palabras empleando los diccionarios.
6 Javier Tejada Cárcamo TS Conversión de los diccionarios en la forma de una base de datos. Implementación de los algoritmos, incluidos los algoritmos para la desambiguación del sentido de las palabras.
7 Sulema Torres Ramos PF Pre-procesamiento de los diccionarios y realización de herramientas auxiliares para el manejo de los diccionarios. Procesamiento de corpus de textos y realización de pruebas.
8 Sulema Torres Ramos TS Procesamiento de los diccionarios. Desarrollo de los algoritmos básicos. Compilación de un corpus marcado sintácticamente.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2006 - Diciembre 2006)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 8 Estudios en la literatura especializada de lexicografía
Se realizarán los estudios en la literatura lingüísticia especializada sobre los principios de construcción de diccionarios, para la elaboración de las propuestas para las heurísticas.
Enero 2006 Enero 2006
2 8 Preprocesamiento de los diccionarios
Los diccionarios disponibles están en el formato de libro listo para impresión, pero no para su procesamiento computacional. Se depurará y unificará su formato, para que se puedan clasificar sus campos y para que se pueda convertir su texto en una base de datos.
Febrero 2006 Febrero 2006
3 8 Conversión de los diccionarios en la forma de una base de datos
Los diccionarios disponibles, tras su unificación y depuración, se convertirán en la forma de una base de datos apropiada para la aplicación de los algoritmos computacionales.
Marzo 2006 Marzo 2006
4 8 Formulación y verificación de las heurísticas básicas para la determinación de l
Se formularán en forma teórica las propuestas para las heurísticas para la determinación de las dominantes. Estas heurísticas se verificarán manualmente, con los diccionarios en papel y con lápiz, para seleccionar las más prometedoras.
Abril 2006 Abril 2006
5 10 Desarrollo de los algoritmos básicos para la determinación de las dominantes
Las heurísticas formuladas y seleccionadas en la etapa anterior, serán conficiadas como algoritmos precisos, con los casos de procesamiento específicos para diferentes formatos de entrada del diccionario.
Mayo 2006 Mayo 2006
6 8 Implementación de los algoritmos básicos para la determinación de las dominantes
Los algoritmos formulados en la etapa anterior, serán realizados en forma de software en un lenguaje de programación, el cual será depurado y documentado debidamente.
Junio 2006 Junio 2006
7 8 Aplicación de los algoritmos desarrollados a la base de datos y su depuración en
El software desarrollado en la etapa anterior será aplicado a los datos reales de los diccionarios, obteniéndose así la primera versión de la base de datos de synsets con las dominantes marcadas.
Julio 2006 Julio 2006
8 10 Evaluación de los resultados y elaboración de las propuestas para nuevas heuríst
Los resultados de la aplicación de los algoritmos, según lo especificado en el punto anterior, serán evaluados por medio de comparación manual con los resultados esperados según la teoría lingüística.
Agosto 2006 Agosto 2006
9 8 Ajustes a los algoritmos desarrollados y preparación de la versión final de la p
Tras la evaluación de los resultados, se realizarán los ajustes necesarios para mejorar la calidad de los resultados, se resolverán problemas y posibles errores, se aplicarán de nuevo los algoritmos a los datos de los diccionarios, y finalmente se preparará la primera versión de la base de datos de los synsets. Ya que sólo se aplican en esta etapa las heurísticas básicas, esta primera versión se a
Septiembre 2006 Septiembre 2006
10 8 Aplicación de prueba de los resultados de la primera etapa para la desambiguació
La base obtenida se usará en el módulo de la resolución de ambigüedad de sentido de palabras, especialmente desarrollado para esta tarea. Se obtendrá un corpus de texto de prueba con los sentidos resueltos con el método desarrollado, en su primera versión.
Octubre 2006 Octubre 2006
11 8 Evaluación de los resultados obtenidos
Se evalurán los resultados de la desambiguación obtenidos en el punto anterior. La evaluación se fectuará contra los corpus existentes con los sentidos correctos ya marcados, así que se puede evaluar el porcentaje de aciertos.
Noviembre 2006 Noviembre 2006
12 8 Preparación de informes y publicaciones
Al terminarse el desarrollo de los algoritmos y la evaluación de los resultados de la primera etapa del desarrollo del Proyecto, se documentarán los estudios correspondientes en los informes y las publicaciones derivadas del Proyecto.
Diciembre 2006 Diciembre 2006
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Bases de datos y recursos informáticos necesarios para el proyecto, tales como diccionarios, corpus de texto, software para su procesamiento. Estos datos pueden ser costosos, pero su disponibilidad mejorará los resultados del proyecto. Nota: El proyecto se puede realizar con los datos y software disponibles en el Laboratorio, pero la disponibilidad de mejores bases y software mejorará sus resultados.

Compra de libros y/o revistas especializados en el área.

Software general, tal como las actualizaciones de los sistemas operativos, paquetería, programas de correo y comunicación, controladores, antivirus, otros programas para el mantenimiento de la PC, programas diversos.

CDs y DVDs gravables y re-gravables, para los respaldos regulares, transportación de grandes volúmenes de datos y guardar los resultados.

Papel, para impresión de borradores, artículos, informes, etc.; así como para la distribución masiva de los resultados del proyecto a los asistentes de congresos y seminarios.

Cartuchos para las impresores láser.

Materiales de oficina diversos, tales como plumas, plumones, tijeras, etc.

Partes para reparación menor, actualización y expansión del equipo de cómputo, tales como discos duros grandes, adaptadores de red, memorias, unidades de grabación de CD y DVD, dispositivos diversos, etc.

Nota: Se especifícan los gastos por un año de operación. Según entendí las bases, los gastos para otros años se solicitarán junto con la prórroga del Proyecto.
28000   
3000  Gastos de transporte y estancia de los investigadores y estudiantes para el intercambio de visitas de colaboración y participación en reuniones de trabajo con colegas tanto dentro del país como en el extranjero. La comunicación y movilidad de los investigadores y sobre todo los estudiantes es un factor muy importante para las actividades de investigación y aprendizaje.

Gastos de transporte y estancia para presentar los resultados del proyecto en plática invitadas.

Gastos para la impresión de los informes y/o libros derivados de las actividades del proyecto.

Gastos para engargolados y copias de los materiales impresos necesarios.

Nota: Se especifícan los gastos por un año de operación. Según entendí las bases, los gastos para otros años se solicitarán junto con la prórroga del Proyecto.
36000   
4000      
5000      
7000      
Total:  $ 64000