FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2012 - Diciembre 2012)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Desambiguación y agrupación automática de los sentidos de las palabras para las aplicaciones en el procesamiento computacional de lenguaje natural

Registro asignado por la SIP:  20121823     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología          Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades     X   
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Casi cada palabra en el texto tiene varias acepciones: "banco" puede referir a una institución, mueble, conjunto, peses, etc. Para los programas de procesamiento de lenguaje natural (recuperación de información, traducción automática, interfaces humano-computadora, adquisición de conocimiento, lingüística de corpus, etc.) es crucial que la acepción apropiada en el contexto ("Juan está sentado en un banco de madera" vs. "Para el examen se usó el banco de reactivos") se pueda determinar automáticamente. Aunque mucha investigación se dedica a esta tarea (WSD, word sense disambiguation), resulta muy difícil; la precisión actualmente no supera 75-80%. En este proyecto se investigarán dos aproximaciones para mejorarla. En la primera, en el contexto de la traducción automática, se intentará reducir el número de acepciones para cada palabra según sus traducciones diferentes. No es trivial dado que cada acepción tomada del diccionario común por lo regular tiene varias traducciones, así como diferentes acepciones pueden tener traducciones en común. Entonces, se buscará construir automáticamente un inventario de acepciones diferente al considerado en los diccionarios comunes y en cierto sentido ortogonal a éstos, pero optimizado para la selección más fácil por el contexto en la traducción automática. En la segunda aproximación, se investigarán las propiedades del método de Lesk de la desambiguación de los sentidos de las palabras (véanse nuestras publicaciones, nlp.cic.ipn.mx, para los detalles y definiciones). En particular, se comprobará la hipótesis de que el tamaño óptimo de la ventana (número de palabras del contexto considerado) en el método de Lesk depende de cada palabra. Más general, ha hipótesis es que existen clases de palabras que obedecen el clásico principio de Yarowsky "una acepción por discurso" y otras que no, o que lo obedecen a diferente escala de extensión del contexto, tal como oración, párrafo, sección, etc.

1.2 Objetivo general
Desarrollar algoritmos y recursos léxicos para la desambiguación automática de los sentidos de las palabras, en particular en el contexto de la traducción automática, con la precisión y desempeño mejores que los métodos del estado del arte.

1.3 Objetivos específicos
Algoritmos, software y recursos léxicos para la desambiguación automática de los sentidos de las palabras con la precisión y desempeño mejores que los métodos del estado del arte, así como algoritmos, software y recursos léxicos para la construcción de los inventarios de acepciones optimizados para la traducción automática.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Liliana Chanona Hernández
  
Desarrollo de la metodología de evaluación para el agrupamiento de los significados de las palabras.
3 Grigori Sidorov -
  
Diseño de los algoritmos mejorados de tipo Lesk para la desambiguación de los sentidos de las palabras.
4 Olga Kolesnikova -
  
Diseño de los aspectos lingüísticos de los algoritmos para el agrupamiento de los sentidos de las palabras.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Honorato Aguilar Galicia TS Ayuda en programación de algunos de los módulos.
2 Noé Alejandro Castro Sánchez TS Investigación de la estructura de las definiciones de las acepaciones de las palabras en los diccionarios electrónicos existentes.
3 Ismael Días Rangel TS Definición de la comoponente emotiva en la desambiguación de los sentidos de las palabras, en los casos cuando unas de las acepciones están relacionadas con emociones.
4 Horacio Alberto García Salas TS Ayuda en la programación de los métodos desarrollados y en la evaluación de los resultados obtenidos.
5 Alfredo López Monroy TS Aplicaciones de los métodos desarrollados a las tareas de recuperación de información, sobre todo en el contexto de los documentos legales.
6 Reyna Elia Melara Abarca TS Aplicación de los métodos desarrollados en la clasificación de los artículos de Wikipedia.
7 SABINO MIRANDA JIMENEZ PF Participación en metas.
8 SABINO MIRANDA JIMENEZ PF Participación en metas.
9 Sabino Miranda Jiménez TS Aplicación y evaluación de los métodos de la desambiguación de los sentidos de las palabras en las tareas de la generación de resúmenes con los métodos simbólicos.
10 Partha Pakray - TS Integración de los métodos desarrollados con la tarea de la detección automática de la implicación textual.
11 Obdulia Pichardo Lagunas TS Investigación de la estructura de grafo en las definiciones de las acepciones de las palabras en los diccionarios.
12 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
13 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
14 Francisco Viveros Jiménez TS Desarrollo y programación de las variantes mejoradas del algoritmo de Lesk para la desambiguación de los sentidos de las palabras.
15 ALISA ZHILA  PF Participación en metas.
16 ALISA ZHILA - PF Participación en metas.
17 Alisa Zhila - TS Desarrollo y programación de los métodos de la agrupación de los sentidos de las palabras para la traducción automática.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2012 - Diciembre 2012)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación bibliográfica
Investigación de las aproximaciones existentes
Enero 2012 Enero 2012
2 10 Preparación de infraestructura
Instalación y puesta en marcha de las herramientas necesarias, por ejemplo, el sistema SenseClusters
Febrero 2012 Febrero 2012
3 10 Construcción de los recursos léxicos
Recopilación y construcción de los corpus de textos marcados necesarios para la realización del proyecto
Marzo 2012 Marzo 2012
4 10 Investigación estadística de los corpus
Investigación del comportamiento estadístico de diferentes clases de palabras en los corpus seleccionados
Abril 2012 Abril 2012
5 10 Determinación de las clases
Determinación empírica de diferentes clases de palabras que obedecen o no, o obedecen localmente, al principio de Yarowsky
Mayo 2012 Mayo 2012
6 10 Agrupamiento de los contextos
Experimentos con el sistema SenseClusters para el agrupamiento monoligüe de los contextos de las palabras
Junio 2012 Junio 2012
7 10 Mapeo de los clusters
Mapeo de los clusters construidos en la etapa anterior a las variantes de la traducción de la palabra dada
Julio 2012 Julio 2012
8 10 Aplicaciones
Desarrollo de las aplicaciones de los métodos diseñados a varias tareas del procesamiento de texto
Agosto 2012 Septiembre 2012
9 10 Evaluación
Evaluación experimental y la interpretación de los resultados obtenidos
Octubre 2012 Octubre 2012
10 10 Ajustes
Cambios a los métodos y los algoritmos desarrollados de acuerdo con los resultados del análisis de su desempeño
Noviembre 2012 Noviembre 2012
11 5 Difusión e informes
Preparación de los artículos que reportarán los resultados obtenidos y de los informes del proyecto
Diciembre 2012 Diciembre 2012
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Adquisición de monitores modernos para los estudiantes y profesores participantes del proyecto, de discos duros de alta capacidad, actualización de memoria de las computadoras, partes varias para las computadoras, materiales de oficina para la operación del proyecto 38000   
3000  Adquisición del acceso en línea al servicio lexicográfico SketchEngine, que será muy útil para la formación de los diccionarios 5000   
4000  Asistencia a dos congresos (traslado hasta $5000, registro hasta $7000, estancia hasta $6000 c/u); asistencia de los estudiantes a un congreso 36000   
5000      
7000      
Total:  $ 79000