FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Desambiguación y agrupación automática de los sentidos de las palabras para las aplicaciones en el procesamiento computacional de lenguaje natural

Registro asignado por la SIP:  20121823     
Datos del director(a) del Proyecto de investigaci�n:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56544  Correo electrónico Tel�fono particular:  55-1810-4587 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología          Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades     X   
Educación         
Clasificaci�n CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno    
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica          Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
Casi cada palabra en el texto tiene varias acepciones: "banco" puede referir a una institución, mueble, conjunto, peses, etc. Para los programas de procesamiento de lenguaje natural (recuperación de información, traducción automática, interfaces humano-computadora, adquisición de conocimiento, lingüística de corpus, etc.) es crucial que la acepción apropiada en el contexto ("Juan está sentado en un banco de madera" vs. "Para el examen se usó el banco de reactivos") se pueda determinar automáticamente. Aunque mucha investigación se dedica a esta tarea (WSD, word sense disambiguation), resulta muy difícil; la precisión actualmente no supera 75-80%. En este proyecto se investigarán dos aproximaciones para mejorarla. En la primera, en el contexto de la traducción automática, se intentará reducir el número de acepciones para cada palabra según sus traducciones diferentes. No es trivial dado que cada acepción tomada del diccionario común por lo regular tiene varias traducciones, así como diferentes acepciones pueden tener traducciones en común. Entonces, se buscará construir automáticamente un inventario de acepciones diferente al considerado en los diccionarios comunes y en cierto sentido ortogonal a éstos, pero optimizado para la selección más fácil por el contexto en la traducción automática. En la segunda aproximación, se investigarán las propiedades del método de Lesk de la desambiguación de los sentidos de las palabras (véanse nuestras publicaciones, nlp.cic.ipn.mx, para los detalles y definiciones). En particular, se comprobará la hipótesis de que el tamaño óptimo de la ventana (número de palabras del contexto considerado) en el método de Lesk depende de cada palabra. Más general, ha hipótesis es que existen clases de palabras que obedecen el clásico principio de Yarowsky "una acepción por discurso" y otras que no, o que lo obedecen a diferente escala de extensión del contexto, tal como oración, párrafo, sección, etc.

1.2 Objetivo general
Desarrollar algoritmos y recursos léxicos para la desambiguación automática de los sentidos de las palabras, en particular en el contexto de la traducción automática, con la precisión y desempeño mejores que los métodos del estado del arte.

1.3 Objetivos específicos
Algoritmos, software y recursos léxicos para la desambiguación automática de los sentidos de las palabras con la precisión y desempeño mejores que los métodos del estado del arte, así como algoritmos, software y recursos léxicos para la construcción de los inventarios de acepciones optimizados para la traducción automática.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   4 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   1  Programa de Radio y TV  0   0 
Conferencias o Ponencias  2   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   2 
Medio       Superior Posgrado
Tesistas  0   0   2 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Liliana Chanona Hernández
  
Desarrollo de la metodología de evaluación para el agrupamiento de los significados de las palabras.
3 Grigori Sidorov -
  
Diseño de los algoritmos mejorados de tipo Lesk para la desambiguación de los sentidos de las palabras.
4 Olga Kolesnikova -
  
Diseño de los aspectos lingüísticos de los algoritmos para el agrupamiento de los sentidos de las palabras.


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 Honorato Aguilar Galicia TS Ayuda en programación de algunos de los módulos.
2 Noé Alejandro Castro Sánchez TS Investigación de la estructura de las definiciones de las acepaciones de las palabras en los diccionarios electrónicos existentes.
3 Ismael Días Rangel TS Definición de la comoponente emotiva en la desambiguación de los sentidos de las palabras, en los casos cuando unas de las acepciones están relacionadas con emociones.
4 Horacio Alberto García Salas TS Ayuda en la programación de los métodos desarrollados y en la evaluación de los resultados obtenidos.
5 Alfredo López Monroy TS Aplicaciones de los métodos desarrollados a las tareas de recuperación de información, sobre todo en el contexto de los documentos legales.
6 Reyna Elia Melara Abarca TS Aplicación de los métodos desarrollados en la clasificación de los artículos de Wikipedia.
7 SABINO MIRANDA JIMENEZ PF Participación en metas.
8 SABINO MIRANDA JIMENEZ PF Participación en metas.
9 Sabino Miranda Jiménez TS Aplicación y evaluación de los métodos de la desambiguación de los sentidos de las palabras en las tareas de la generación de resúmenes con los métodos simbólicos.
10 Partha Pakray - TS Integración de los métodos desarrollados con la tarea de la detección automática de la implicación textual.
11 Obdulia Pichardo Lagunas TS Investigación de la estructura de grafo en las definiciones de las acepciones de las palabras en los diccionarios.
12 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
13 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
14 Francisco Viveros Jiménez TS Desarrollo y programación de las variantes mejoradas del algoritmo de Lesk para la desambiguación de los sentidos de las palabras.
15 ALISA ZHILA  PF Participación en metas.
16 ALISA ZHILA - PF Participación en metas.
17 Alisa Zhila - TS Desarrollo y programación de los métodos de la agrupación de los sentidos de las palabras para la traducción automática.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 5 Investigación bibliográfica
Investigación de las aproximaciones existentes
Enero 2012 Enero 2012
2 10 Preparación de infraestructura
Instalación y puesta en marcha de las herramientas necesarias, por ejemplo, el sistema SenseClusters
Febrero 2012 Febrero 2012
3 10 Construcción de los recursos léxicos
Recopilación y construcción de los corpus de textos marcados necesarios para la realización del proyecto
Marzo 2012 Marzo 2012
4 10 Investigación estadística de los corpus
Investigación del comportamiento estadístico de diferentes clases de palabras en los corpus seleccionados
Abril 2012 Abril 2012
5 10 Determinación de las clases
Determinación empírica de diferentes clases de palabras que obedecen o no, o obedecen localmente, al principio de Yarowsky
Mayo 2012 Mayo 2012
6 10 Agrupamiento de los contextos
Experimentos con el sistema SenseClusters para el agrupamiento monoligüe de los contextos de las palabras
Junio 2012 Junio 2012
7 10 Mapeo de los clusters
Mapeo de los clusters construidos en la etapa anterior a las variantes de la traducción de la palabra dada
Julio 2012 Julio 2012
8 10 Aplicaciones
Desarrollo de las aplicaciones de los métodos diseñados a varias tareas del procesamiento de texto
Agosto 2012 Septiembre 2012
9 10 Evaluación
Evaluación experimental y la interpretación de los resultados obtenidos
Octubre 2012 Octubre 2012
10 10 Ajustes
Cambios a los métodos y los algoritmos desarrollados de acuerdo con los resultados del análisis de su desempeño
Noviembre 2012 Noviembre 2012
11 5 Difusión e informes
Preparación de los artículos que reportarán los resultados obtenidos y de los informes del proyecto
Diciembre 2012 Diciembre 2012
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  Adquisición de monitores modernos para los estudiantes y profesores participantes del proyecto, de discos duros de alta capacidad, actualización de memoria de las computadoras, partes varias para las computadoras, materiales de oficina para la operación del proyecto 38000   
3000  Adquisición del acceso en línea al servicio lexicográfico SketchEngine, que será muy útil para la formación de los diccionarios 5000   
4000  Asistencia a dos congresos (traslado hasta $5000, registro hasta $7000, estancia hasta $6000 c/u); asistencia de los estudiantes a un congreso 36000   
5000      
7000      
Total:  $ 79000