FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Procesamiento de Lenguaje Natural 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Detección de la implicación textual y relaciones léxicas en los textos en lenguaje natural

Registro asignado por la SIP:  20100773     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Correo electrónico Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología          Ciencias Sociales     X   
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Educación  
Subsector:   Infraestructura                                                                                                                                                   
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
La tarea de la detección de la implicación textual (recognizing textual entailment, en inglés) es una tarea de razonamiento automático sobre el texto escrito en lenguaje natural, tal como el español o inglés. La tarea consiste en decidir la computadora si un enunciado lógicamente implica otro, por ejemplo: el enunciado "los casos de la influenza porcina no se han vuelto a suceder en Puebla en este año" ¿implica "el año pasado había casos de influenza en Puebla"? Esta tarea es de importancia primordial para varias tareas clave del procesamiento de texto y conocimiento: para la recuperación de informción (un documento dado, ¿responde a la pregunta?), traducción automática (la traducción, ¿es lógicamente equivalente a la frase original?), manejo automático de contenidos educativos (un módulo del curso, ¿cuáles módulos presupone lógicamente?), entre otras.

Consecutivamente es una tarea muy difícil, que requiere investigación en múltiples campos de la inteligencia artificial, tales como la desambiguación semántica, textos multilíngües, aprendizaje estadístico, análisis simbólico de textos, etcétera.

Este proyecto continúe la colaboración internacional entre los grupos relevantes del IPN y la U. de Jadavpur, India, que tiene como meta la contribución en los métodos de la detección automática de la implicación textual y desambiguación semántica. De igual manera, continúe la colaboración internacional (con la U. de Madrid), nacional (con SOMECE) e intrainstitucional (entre los grupos del CIC y UPIICSA) en la cual se investigan las posibilidades de la aplicación de los métodos desarrollados a la elaboración y manejo de los contenidos educativos. Se espera tanto elaboración de artículos científicos como la formación de recursos humanos (Maestría y Doctorado) en los temas relacionados a la detección de la implicación textual e identificación de las relaciones léxicas en el texto.

1.2 Objetivo general
Desarrollo de los métodos de la detección de la implicación textual y relaciones léxicas en los textos en lenguaje natural, incluido el español e inglés

1.3 Objetivos específicos
Algoritmos de análisis semántico de texto con el propósito de detectar la implicación textual y las relaciones léxicas; recursos léxicos correspondientes

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  1   0  Artículo Científico  0   4 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  1   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  2   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   2 
Medio       Superior Posgrado
Tesistas  0   0   2 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
Colaboración estrecha en la dirección del proyecto, consultoría sobre los asuntos lingüísticos; co-dirección de varios de los estudiantes participantes
3 Liliana Chanona Hernández
  
Implementación de varios algoritmos y seguimiento a los estudiantes programadores
4 Marina Vicario Solórzano
  
Coordinación del proyecto con las aplicaciones en la elaboración y manejo de los contenidos educativos
5 Sivaji Bandyopadhyay -
  
Elaboración de los métodos de la detección de la implicación textual; co-dirección de dos alumnos participantes de proyecto


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Grettel Barceló Alonso TS Diseño y evaluación de los algoritmos de desambiguación de los sentidos de las palabras usando textos multilingües
2 Horacio Alberto García Salas TS Apoyo en programación de diferentes métodos elaborados dentro de este proyecto. Aplicación de los métdos de análisis estadístico de texto en otros campos, tales como la generación musical
3 OLGA KOLESNIKOVA - PF Participación en metas.
4 Olga Kolesnikova - TS Desarrollo e implementación de métodos para la detección automática de las relaciones semánticas entre las palabras, basados en funciones léxicas
5 Moisés Eduardo Lavín Villa TS Métodos para la construcción de los diccionarios a partir del corpus
6 Alfredo López Monroy TS Elaboración de los métodos de búsqueda y agrupamiento en grafos aplicables al descubrimeiento de la estructura semántica del texto y recuperación de información
7 Reyna Elia Melara Abarca TS Aplicación de los métodos elaborados en el proyecto, a los contenidos educativos en redes de comunicación
8 SABINO MIRANDA JIMÉNEZ PF Participación en metas.
9 Sabino Miranda Jiménez TS Elaboración de los métodos de análisis de textos con enfoque simbólico, con atención especial a la elaboración de resúmenes
10 Rigoberto Ocampo Pólito TS Diseño de los algoritmos para la detección de congruencia semántica en los enunciados en el texto
11 Partha Pakray - TS Desarrollo de los métodos de la detección de la implicación textual usando características semánticas de las palabras
12 Carlos Ignacio Reséndiz Juárez TS Alineación de los textos multilingües para la aplicación de los algoritmos de la desambigación de los sentidos de palabras basada en textos paralelos
13 MIGUEL ANGEL RÍOS GAONA PF Participación en metas.
14 Miguel Ángel Ríos Gaona TS Desarrollo e implementación de los métodos de la detección de la implicación textual usando métodos de aprendizaje estadístico
15 Sulema Torres Ramos TS Métodos para la resolución de la ambigüedad de los sentidos se las palabras

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 20 Estudios bibliográficos
Recopilación y estudio de la bibliografía relevante
Enero 2010 Febrero 2010
2 20 Elaboración de métodos de desambiguación semántica
Diseño e implementación de varios algoritmos para la desambiguación de los sentidos de las palabras, incluidos los métodos que involucran el análisis de textos multilíngues
Marzo 2010 Abril 2010
3 10 Investigación en la coherencia textual
Diseño, implementación y las pruebas de los métodos para detectar la congruencia o incongruencia semántica del texto
Mayo 2010 Junio 2010
4 10 Elaboración de los recursos léxicos
Complicación y procesamiento de varios recursos léxicos (diccionarios) necesarios para las actividades del proyecto
Julio 2010 Agosto 2010
5 10 Investigación en estructuras gráficas del texto
Diseño y estudio de comportamiento de varios métodos de análisis de textos que involucran la representación del texto como un grafo y análisis de las propiedades matemáticas de tal grafo. Aplicaciones a la recuperación de información y compilación de resúmenes
Septiembre 2010 Octubre 2010
6 30 Elaboración de métodos de detección de la implicación textual
Diseño de varios métdos de la detección de la implicación textual, con enfoque principal en el análisis estadístico de textos
Noviembre 2010 Diciembre 2010
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Ya que el proyecto implica el trabajo con grandes masivos de texto, se planea la adquisición del equipo de cómputo, incluidas dos estaciones de trabajo modernas y un servidor de red. Adicionalmente, el proyecto necesitará la adquisición de papel, tóner, discos CD, discos duros y memorias para las computadoras existentes. 35000   
3000  Se prevé la necesidad de elaboración de algunos diccionarios con la participación de expertos contradados. Además, se planea impresión de materiales de los congresos derivados de este proyecto y la colaboración internacional correspondiente, tales como los congresos CICLing y CORE. 14000   
4000      
5000      
7000  Se planea la asistencia de tanto profesores como alumnos a varios congresos internacionales más relevantes, tales como CICLing, MICAI, NLDB, TSD o equivalentes. Ya que el proyecto prevé la colaboración internaional (con la U. de Jadavpur y con la U. de Madrid), se esperan adicionalmente al menos dos viajes transatlánticos y estancias correspondientes. 48000   
Total:  $ 97000   

Dictamen del Proyecto:
                                             Aprobado