INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Febrero 2005 - Enero 2006)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Tecnologías de Lenguaje Natural 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Métodos de aprendizaje automático estadístico para la resolución de ambigüedad de sentido de palabras a través de combinaciones de palabras

Registro asignado por la SIP:  20051184     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
INTRODUCCIÓN

Análisis automático por compradora del texto en el español es la base indispensable para una amplia gama de tecnologías y aplicaciones del manejo de información y documentos. Se pueden mencionar la recuperación de información (los buscadores de Internet y en las bases de datos), la traducción automática, las interfaces humano-computadora en el lenguaje natural, la presentación resumida de los enormes flujos y acervos de información que hoy en día abundan en toda la clase de actividades humanas, entre otras. En cortas palabras, es uno de los pilares de la sociedad informática que se está construyendo en el mundo y en nuestro país.

El análisis automático de texto en español, llamado también PLN (procesamiento de lenguaje natural) enfrenta numerosos problemas técnicos. Sin profundizarnos en detalles, se puede decir que a la computadora le resulta mucho más difícil entender el texto que a una persona. Uno de los problemas que enfrenta el PLN es el de la ambigüedad de sentidos de palabras. Una palabra (una cadena de letras) en el texto puede significar varias cosas: por ejemplo, la palabra ?banco? puede referir a una institución financiera, a la orilla del río, a una formación de arena, a un mueble usado para sentarse, etc.; la palabra ?planta? puede referir a una flor, a una fábrica, al fuente industrial de electricidad, la parte del pié, etc. Aunque las personas no lo notamos, casi cualquier palabra en español es ambigua: por ejemplo, la palabra ?palabra? puede referir a una cadena de letras entre espacios, a un mensaje (?la palabra de Dios?), a una promesa (?doy mi palabra?), a una unidad de memoria de computadora (16 bits), etc.

Aunque una palabra es ambigua fuera del contexto, en cada contexto dado refiere a uno sólo de sus significados; por ejemplo, en esta oración la palabra ?palabra? refiere a una cadena de letras. Para el procesamiento correcto del texto es sumamente importante que la computadora pueda identificar el sentido específico de la palabra en el contexto dado. Por ejemplo, para encontrar la información sobre las plantas mexicanas, es indispensable saber en cuáles textos se trata de las flores mexicanas y en cuáles de las fábricas mexicanas. Para traducir correctamente a inglés la frase ?Juan usó el gato para reparar su carro?, es necesario elegir entre las traducciones de la palabra ?gato? como ?cat? o ?jack?. Dado la gran cantidad de textos a procesar, tales decisiones deben tomarse automáticamente, sin participación humana.

La desambiguación de sentidos de palabras (WSD, por sus siglas en inglés: Word Sense Disambiguation) actualmente es una rama muy activa y dinámica de la lingüística computacional y el aprendizaje automático. En el marco del proyecto se hará contribución a este campo de la ciencia, atacando el problema con la aproximación relacionada con el análisis estadístico de las combinaciones de palabras.

RELEVANCIA E IMPORTANCIA

El proyecto contribuirá en la línea general del Laboratorio de la Tecnologías de Lenguaje Natural del CIC-IPN a mi cargo. La línea general de este laboratorio es el desarrollo de los analizadores del texto en español de alta calidad, así como de los recursos léxicos y algorítmicos necesarios para el desarrollo de dichos analizadores y su aplicación.

METODOLOGÍA

El trabajo se basa en las ideas recientemente propuestas por los investigadores líderes del campo de WSD, tales como D. McCarthy et al. (2004), T. Pedersen (2002), R. Mihalcea (2004), entre otros, así como el los desarrollos previos de los investigadores del Laboratorio en la temática del estudio de combinaciones de palabras: Gelbukh y Bolshakov (2002), Bolshakov (2004), Gelbukh y Sidorov (2003), Calvo y Gelbukh (2003), entre otros.

La idea principal de la corriente mencionada de investigación en WSD es la de sustitución de las palabras en el contexto. Dado un texto (llamado en este caso ?contexto?) específico con la palabra ambigua en cuestión, se detectan otras palabras que se pueden usar (se usan en el corpus de textos) en este contexto específico en lugar de la palabra dada. Este conjunto de palabras determina los rasgos semánticos que permiten elegir uno de los sentidos de la palabra. Por ejemplo, para la frase ?Juan usó el gato para reparar su carro? se puede detectar que otras palabras apropiadas en este contexto serían desarmador (?Juan usó un desarmador para reparar su carro?), taladro, pinza, martillo, mientras que las palabras perro, tigre, pantera no son apropiadas en este contexto. Mediante un cálculo (demasiado complexo para explicarlo aquí) sobre las redes semánticas disponibles, el programa puede concluir que el significado deseado de la palabra ?gato? en este contexto específico es el de herramienta. Lo que permite, por ejemplo, elegir su traducción correcta a inglés: ?jack? (y no ?cat?).

El problema de esta aproximación es lo difícil de comparar los contextos (¿dónde termina el contexto de una palabra en un texto largo?) y el hecho de que es muy poco probable encontrar varias ocurrencias de un contexto que exactamente correspondan al contexto original. De esto surge la necesidad de aplicar, por un lado, métodos complejos lingüísticos y estadísticos para la comparación suave (borrosa) de los contextos, y por otro lado, heurísticas lingüísticas para acotar el contexto de modo lingüísticamente razonable, para no perder su coherencia.

En este proyecto se explorarán las posibilidades del uso del contexto constituido por una sola palabra sintácticamente relacionada con la palabra en cuestión, por ejemplo: usar gato, romper gato, gato hidráulico; acariciar gato, alimentar gato, gato siamés. Esta línea se basa en la investigación que durante varios años se conduce en nuestro Laboratorio sobre este tipo de las estructuras lingüísticas. Un diccionario de tales combinaciones permitirá detectar de manera más fácil las palabras en el contexto de la palabra dada, que afectan a la selección de su sentido, sin recurrir a los métodos de análisis sintáctico complejos y en la actualidad poco robustos.

Se investigarán los métodos lingüísticos y estadísticos para la recopilación de una base de datos grande de las combinaciones del tipo mencionado, así como su aplicación para la tarea de WSD. Se compararán los resultados obtenidos con el estado del arte mundial, a través de las colecciones estándar usadas en los concursos mundiales de los programas para WSD, llamados SENSEVAL (en la actualidad están disponibles los datos para el español del SENSEVAL-3). Como resultado se busca avanzar sobre el estado del arte en los porcentajes de reconocimiento del sentido correcto de las palabras en el texto en español.

COORDINACIÓN CON OTROS PROYECTOS DEL GRUPO

El Proyecto se basa en la experiencia de 8 años del grupo de investigación a mi cargo en la investigación de las combinaciones de palabras y sus numerosas aplicaciones. Por ejemplo, en este momento está por terminar una tesis doctoral de un alumno mío dedicada a las aplicaciones de las combinaciones de palabras a la tarea de WSD; una tesis de Maestría en un tema relacionada está en proceso.

El Proyecto está en relación estrecha con otros proyectos miembros del programa propuesto a CGPI en este año. El proyecto del Dr. Bolshakov sobre la detección y corrección de malapropismos, consiste en la detección de que el sentido de una palabra no se puede resolver en un contexto dado, mientras que el de otra parecida sí se puede. La aproximación aplicada en aquel proyecto es complementaria a la abordada aquí, y ambos proyectos beneficiarán significativamente de los resultados del otro (por ejemplo, en el marco del presente Proyecto no está previsto el uso de Internet, el cual es la parte central de la aproximación del Dr. Bolshakov).

El Proyecto del Dr. Sidorov sobre la alineación de los textos bilingües, se basa en la identificación de las traducciones de las palabras de un texto en el otro. Como ya se ha dicho, la tarea de traducción implica previa desambiguación del sentido de la palabra. Lo que permite considerar los resultados del presente Proyecto como un módulo de preprocesamiento de datos para el proyecto del Dr. Sidorov, con las miras a su futura integración en un sistema inteligente para la alineación de textos (una herramienta muy útil en la traducción automática). Por otro lado, los textos alineados en el proyecto del Dr. Sidorov se pueden usar para la detección de sentidos de algunas palabras en el texto bilingüe. Como se sabe de la experiencia previa del trabajo en WSD, tales recursos son de gran ayuda en el desarrollo de los métodos de WSD no supervisados.

Finalmente, en el proyecto del Dr. Yáñez se investigarán ciertas técnicas del análisis estadístico de los datos útiles para su agrupamiento y clasificación. La tarea de WSD es un caso particular de la clasificación (donde las categorías son los sentidos específicos de la palabra dada). Esta tarea está estrechamente relacionada con la tarea de discriminación (a diferencia de desambiguación) de los sentidos de palabras, la cual consiste en la detección automática de contextos en los cuales la palabra dada tiene sentidos diferentes (sin en este momento decidir cuáles); algunas de las técnicas del estado del arte en WSD se basan en previa resolución de esta tarea, la cual puede ser vista como una aplicación de los métodos de agrupamiento. En el presente Proyecto se aplicarán, entre otros, las técnicas investigadas por el Dr. Yáñez. Por otro lado, la retroalimentación desde la aplicación de sus métodos a las tareas del procesamiento automático de texto será de gran utilidad para el Dr. Yáñez, como una de las posibles aplicaciones y generalizaciones de los métodos desarrollados en el marco de aquel proyecto.

1.2 Objetivo general
El objetivo del presente proyecto es desarrollar los métodos de aprendizaje automático, así como investigar el desempeño de los métodos existentes, para la resolución de la ambigüedad de los sentidos de palabras en los textos en español, basados en el estudio estadístico de su compatibilidad con otras palabras, con la finalidad de mejorar el análisis automático de texto en español por computadora.

1.3 Objetivos específicos
1. Una base de datos de las combinaciones de palabras en español para la aplicación en la tarea de la desambiguación de sentidos de palabras.

2. Software piloto para la desambiguación de sentidos de palabras en español.

3. Dos artículos indexados en el Science Citation Index de ISI.

4. Tres artículos in extenso en congresos internacionales de alto prestigio.

5. Avance o en su caso conc

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Maosong Sun 
  
Diseño y evaluación de los algoritmos relacionados con la clasificación estadística de datos.
3 Igor Bolshakov Mironova
  
Investigación teórica y diseño de algoritmos en la colección de las colocaciones.
4 Grigori Sidorov 
  
Diseño de la implementación del prototipo del laboratorio; dirección de las actividades de los estudiantes relacionadas con la implementación de los algoritmos.
5 Ted Pedersen 
  
Diseño y evaluación de las bases teóricas de la extracción de datos de los corpus; diseño de las medidas de semejanza de las palabras usando recursos léxicos grandes.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Macario Hernández Cruz TS Diseño e implementación de los algortmos de conversión de las estructuras sintácticas a las estructuras conceptuales para la métrica borrosa de comparación de oraciones.
2 Tania Lugo García TS Construcción del diccionario de colocaciones a través del algoritmo iterativo de la desambiguación sintáctica.
3 Valentina Muñoz Porras TS Desarrolló el desambiguador de la categoría gramatical, usado para la compilación de la base de datos de combinaciones de palabras.
4 Vicente Nonell Cubells PF Diseño de algoritmos de comparación de las palabras usando el diccionario WordNet. Diseño de las medidas de comparación para los algoritmos de agrupamiento.
5 Javier Tejada Cárcamo PF Diseño e implementación de los algoritmos de procesamiento estadístico de corpus.
6 Javier Tejada Cárcamo TS Implementación de los algoritmos de la extracción de colocaciones de los corpus y la ponderación de las colocaciones.
7 Sulema Torres Ramos PF Implementación de los algoritmos de comparación de diferentes métricas de semejanza. Interpretación estadística de los resultados y selección o en su caso construcción de la mejor métrica.
8 Varios estudiantes de Verano Científico de la AMC  PP Participación el el desarrollo del software.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Febrero 2005 - Enero 2006)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación teórica
Investigación teórica de los métodos existentes del estado del arte en la desambiguación de sentidos de palabras.
Febrero 2005 Febrero 2005
2 5 Compilación del corpus
Compilación de un corpus balanceado de textos en español, con la representatividad léxica y sintáctica, para los experimentos estadísticos posteriores, su preprocesamiento y conversión en el formato apropiado (de una base de datos lingüística).
Marzo 2005 Marzo 2005
3 15 Algoritmos para la extracción de patrones
Diseño e implementación de los algoritmos para la extracción de patrones de combinaciones de palabras del corpus de textos en español.
Abril 2005 Abril 2005
4 15 Base de combinaciones de palabras
Compilación de una base de combinaciones de palabras en español, con la anotación de las relaciones sintácticas correspondientes.
Mayo 2005 Mayo 2005
5 10 Detección de las combinaciones
Experimentación con la detección de las combinaciones significativas en los textos, con el propósito de la desambiguación de sentidos de palabras.
Junio 2005 Junio 2005
6 10 Listas de sustitución de palabras
Diseño e implementación de los algoritmos para la construcción de las listas de sustitución de las palabras en un contexto dado.
Julio 2005 Julio 2005
7 5 Estudio estadístico y clasificación de las listas
Diseño e implementación de los métodos del estudio estadístico y clasificación de las listas obtenidas.
Agosto 2005 Agosto 2005
8 10 Evaluación y publicaciones
Evaluación de los resultados obtenidos y preparación de las publicaciones.
Agosto 2005 Enero 2006
9 5 Estudio comparativo de las métricas de similitud
Estudio comparativo de las métricas de similitud entre los sentidos de palabras, con el fin de la selección automática del significado más apropiado según la lista construida.
Septiembre 2005 Septiembre 2005
10 5 Aprendizaje automático para la construcción y ponderación de las métricas
Estudio de los métodos de aprendizaje automático para la construcción y ponderación de las métricas de similitud de sentidos.
Octubre 2005 Octubre 2005
11 5 Discriminación de los sentidos de palabras
Aplicación de los métodos estadísticos para la discriminación de los sentidos de palabras, a la tarea de la desambiguación de los sentidos.
Noviembre 2005 Noviembre 2005
12 10 Implementación de un sistema de laboratorio
Diseño e implementación de un sistema de laboratorio para la desambiguación de los sentidos de palabras en el contexto con los métodos propuestos.
Diciembre 2005 Diciembre 2005
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Libros de casas editoriales mexicanas y extranjeras, memorias de congresos internacionales.
Otros artículos de papelería e insumos.
Papel y otros gastos para edición del libro derivado de este Proyecto según lo previsto en los resultados entregables.
19000   
3000  Pasajes y viáticos para dos visitas a las universidades con las cuales se colaborará en este Proyecto. Se efectuarán las visitas a las siguientes universidades (o estancias equivalentes, dependiendo de la disponibilidad de tiempo de nuestros colaboradores y de las necesidades del Proyecto):

? Una estancia corta de investigación en la U. de Minnesota (EE.UU.), con el Dr. Ted Pedersen, para colaboración.

? Una estancia corta de investigación en la U. TsingHua (Peking, China), con el Dr. Maosong Sun, para colaboración.
48000   
4000      
5000      
7000      
Total:  $ 67000