FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Laboratorio de Procesamiento de Lenguaje Natural 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Detección de la implicación textual y relaciones léxicas en los textos en lenguaje natural

Registro asignado por la SIP:  20100773     
Datos del director(a) del Proyecto de investigaci�n:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56544  Correo electrónico Tel�fono particular:  55-1810-4587 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología          Ciencias Sociales     X   
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Sector Educación  
Subsector:   Infraestructura                                                                                                                                                   
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno    
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica          Investigación Tecnológica     X  
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
La tarea de la detección de la implicación textual (recognizing textual entailment, en inglés) es una tarea de razonamiento automático sobre el texto escrito en lenguaje natural, tal como el español o inglés. La tarea consiste en decidir la computadora si un enunciado lógicamente implica otro, por ejemplo: el enunciado "los casos de la influenza porcina no se han vuelto a suceder en Puebla en este año" ¿implica "el año pasado había casos de influenza en Puebla"? Esta tarea es de importancia primordial para varias tareas clave del procesamiento de texto y conocimiento: para la recuperación de informción (un documento dado, ¿responde a la pregunta?), traducción automática (la traducción, ¿es lógicamente equivalente a la frase original?), manejo automático de contenidos educativos (un módulo del curso, ¿cuáles módulos presupone lógicamente?), entre otras.

Consecutivamente es una tarea muy difícil, que requiere investigación en múltiples campos de la inteligencia artificial, tales como la desambiguación semántica, textos multilíngües, aprendizaje estadístico, análisis simbólico de textos, etcétera.

Este proyecto continúe la colaboración internacional entre los grupos relevantes del IPN y la U. de Jadavpur, India, que tiene como meta la contribución en los métodos de la detección automática de la implicación textual y desambiguación semántica. De igual manera, continúe la colaboración internacional (con la U. de Madrid), nacional (con SOMECE) e intrainstitucional (entre los grupos del CIC y UPIICSA) en la cual se investigan las posibilidades de la aplicación de los métodos desarrollados a la elaboración y manejo de los contenidos educativos. Se espera tanto elaboración de artículos científicos como la formación de recursos humanos (Maestría y Doctorado) en los temas relacionados a la detección de la implicación textual e identificación de las relaciones léxicas en el texto.

1.2 Objetivo general
Desarrollo de los métodos de la detección de la implicación textual y relaciones léxicas en los textos en lenguaje natural, incluido el español e inglés

1.3 Objetivos específicos
Algoritmos de análisis semántico de texto con el propósito de detectar la implicación textual y las relaciones léxicas; recursos léxicos correspondientes

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  1   0  Art�culo Cient�fico  0   4 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  1   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  2   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   2 
Medio       Superior Posgrado
Tesistas  0   0   2 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
Colaboración estrecha en la dirección del proyecto, consultoría sobre los asuntos lingüísticos; co-dirección de varios de los estudiantes participantes
3 Liliana Chanona Hernández
  
Implementación de varios algoritmos y seguimiento a los estudiantes programadores
4 Marina Vicario Solórzano
  
Coordinación del proyecto con las aplicaciones en la elaboración y manejo de los contenidos educativos
5 Sivaji Bandyopadhyay -
  
Elaboración de los métodos de la detección de la implicación textual; co-dirección de dos alumnos participantes de proyecto


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 Grettel Barceló Alonso TS Diseño y evaluación de los algoritmos de desambiguación de los sentidos de las palabras usando textos multilingües
2 Horacio Alberto García Salas TS Apoyo en programación de diferentes métodos elaborados dentro de este proyecto. Aplicación de los métdos de análisis estadístico de texto en otros campos, tales como la generación musical
3 OLGA KOLESNIKOVA - PF Participación en metas.
4 Olga Kolesnikova - TS Desarrollo e implementación de métodos para la detección automática de las relaciones semánticas entre las palabras, basados en funciones léxicas
5 Moisés Eduardo Lavín Villa TS Métodos para la construcción de los diccionarios a partir del corpus
6 Alfredo López Monroy TS Elaboración de los métodos de búsqueda y agrupamiento en grafos aplicables al descubrimeiento de la estructura semántica del texto y recuperación de información
7 Reyna Elia Melara Abarca TS Aplicación de los métodos elaborados en el proyecto, a los contenidos educativos en redes de comunicación
8 SABINO MIRANDA JIMÉNEZ PF Participación en metas.
9 Sabino Miranda Jiménez TS Elaboración de los métodos de análisis de textos con enfoque simbólico, con atención especial a la elaboración de resúmenes
10 Rigoberto Ocampo Pólito TS Diseño de los algoritmos para la detección de congruencia semántica en los enunciados en el texto
11 Partha Pakray - TS Desarrollo de los métodos de la detección de la implicación textual usando características semánticas de las palabras
12 Carlos Ignacio Reséndiz Juárez TS Alineación de los textos multilingües para la aplicación de los algoritmos de la desambigación de los sentidos de palabras basada en textos paralelos
13 MIGUEL ANGEL RÍOS GAONA PF Participación en metas.
14 Miguel Ángel Ríos Gaona TS Desarrollo e implementación de los métodos de la detección de la implicación textual usando métodos de aprendizaje estadístico
15 Sulema Torres Ramos TS Métodos para la resolución de la ambigüedad de los sentidos se las palabras

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 20 Estudios bibliográficos
Recopilación y estudio de la bibliografía relevante
Enero 2010 Febrero 2010
2 20 Elaboración de métodos de desambiguación semántica
Diseño e implementación de varios algoritmos para la desambiguación de los sentidos de las palabras, incluidos los métodos que involucran el análisis de textos multilíngues
Marzo 2010 Abril 2010
3 10 Investigación en la coherencia textual
Diseño, implementación y las pruebas de los métodos para detectar la congruencia o incongruencia semántica del texto
Mayo 2010 Junio 2010
4 10 Elaboración de los recursos léxicos
Complicación y procesamiento de varios recursos léxicos (diccionarios) necesarios para las actividades del proyecto
Julio 2010 Agosto 2010
5 10 Investigación en estructuras gráficas del texto
Diseño y estudio de comportamiento de varios métodos de análisis de textos que involucran la representación del texto como un grafo y análisis de las propiedades matemáticas de tal grafo. Aplicaciones a la recuperación de información y compilación de resúmenes
Septiembre 2010 Octubre 2010
6 30 Elaboración de métodos de detección de la implicación textual
Diseño de varios métdos de la detección de la implicación textual, con enfoque principal en el análisis estadístico de textos
Noviembre 2010 Diciembre 2010
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  Ya que el proyecto implica el trabajo con grandes masivos de texto, se planea la adquisición del equipo de cómputo, incluidas dos estaciones de trabajo modernas y un servidor de red. Adicionalmente, el proyecto necesitará la adquisición de papel, tóner, discos CD, discos duros y memorias para las computadoras existentes. 35000   
3000  Se prevé la necesidad de elaboración de algunos diccionarios con la participación de expertos contradados. Además, se planea impresión de materiales de los congresos derivados de este proyecto y la colaboración internacional correspondiente, tales como los congresos CICLing y CORE. 14000   
4000      
5000      
7000  Se planea la asistencia de tanto profesores como alumnos a varios congresos internacionales más relevantes, tales como CICLing, MICAI, NLDB, TSD o equivalentes. Ya que el proyecto prevé la colaboración internaional (con la U. de Jadavpur y con la U. de Madrid), se esperan adicionalmente al menos dos viajes transatlánticos y estancias correspondientes. 48000   
Total:  $ 97000