FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Generación de resumenes de textos por computadora con la detección automática de expresiones multipalabra

Registro asignado por la SIP:  20082936     
Datos del director(a) del Proyecto de investigaci�n:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56544  Correo electrónico Tel�fono particular:  55-1810-4587 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno    
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica     X    Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
En este proyecto se abarcará un problema de suma importancia para el manejo de conocimiento en forma textual: la representación consisa de documentos grandes o de las colecciones de texto grandes. Eso facilita la comprensión de la información por los seres humanos, ahorra el tiempo en la lectura, y facilita la toma de decisiones (aumentando la calidad de tales decisiones) en todas las situaciones en las cuales la persona que toma la decisión necesita conocer o consultar grandes volúmenes de información.

Para esta tarea, es indispensable la ayuda que nos brinde la computadora en el manejo del conocimiento. Es la computadora que puede "leer" los enormes volúmenes de información, en forma textual, relevantes para tal o cual decisión; no es posible que un ser humano lea tanta información que está disponible hoy en día en forma digital. Sin embargo, la computadora puede resumir la información procesada por ella en un texto corto y entendible por el ser humano. La generación de resúmenes por computadora (text summarization) es hoy en día un área de la lingüística computacional con un desarrollo muy activo en el mundo, aunque casi siempre con aplicación al lenguaje inglés y no español.

En este proyecto desarrollaremos técnicas novedosas para la generación de resúmenes por computadora, basadas en la detección automática de expresiones multipalabra relevantes para un documento dado o una colección de documentos dada. Para esto, aplicaremos métodos estadísticos de detección de secuencias frecuentes, de comparación suave de las palabras, y de resolución de ambigüedad de sentidos de las palabras.

El proyecto contribuirá también al desarrollo de tesis de varios alumnos, de los cuales esperamos que se graduarán dos al término de este proyecto, y otros continuarán sus estudios de doctorado, mientras que el proyecto será una parte de su investigación doctoral.

1.2 Objetivo general
Desarrollar métodos, algoritmos y programas de software para la generación automática de resúmenes extractivos a través de la detección automática de expresiones multipalabra.

1.3 Objetivos específicos
Programa de software capaz de generar autompaticamente resúmenes de texto, sin emplear grandes diccionarios desarrollados manualmente para tal fin.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   3 
Congresos  0   1  Seminiarios  0   2 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   3 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   3 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov 
  
Consultoría en las cuestiones lingüísticas. Desarrollo de herramientas lingüísticas de soporte lexicográfico.


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 Ricardo Ávila Argüelles TS Colaboración en varias tareas del proyecto.
2 OLGA KOLESNIKOVA - PF Colaboración en varias tareas del proyecto.
3 Diego Lara Reyes TS Colaboración en varias tareas del proyecto.
4 Yulia Ledeneva -- TS Desarrollo de los algoritmos principales.
5 Steve Legrand  TS Elaboración teórica de los métodos para la desambiguación de los sentidos de las palabras.
6 Alfredo Lopez Monroy PF Colaboración en varias tareas del proyecto. Se graduó de Maestría, con Mención Honorífica. Entró al Doctorado del CIC-IPN.
7 Alfredo López Monroy TS Colaboración en varias tareas del proyecto.
8 SULEMA TORRES RAMOS PF Colaboración en varias tareas del proyecto.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 15 Investigación del estado del arte
Los estudiantes se familiarizan con el estado del arte y los métodos existentes en sus respectivas tareas.
Enero 2008 Febrero 2008
2 15 Desarrollo teórico de los métodos
En cada línea de investigación del proyecto se definen los caminos de su realización y se desarrollan los algoritmos y métodos a desarrollar.
Marzo 2008 Abril 2008
3 15 Inplementación compútacional
En cada línea de investigación del proyecto, se van desarrollando los programas de software correspondientes a los métodos desarrollados en la etapa anterior.
Mayo 2008 Junio 2008
4 20 Experimentación
Se aplican los programas desarrollados en la etapa anterior, a los datos reales (los corpus de texto) y se acumulan los resultados que generan los algoritmos correspondientes.
Julio 2008 Agosto 2008
5 20 Evaluación y análisis
Los resultados obtenidos en la etapa anterior se evalúen contra los corpus estándares existentes (gold standard) elaborados para este fin (tal evaluación no es un paso trivial sino involucra bastantes procesos computacionales sobre tales corpus). Los resultados de tal evaluación se analizan y se determinan las fuentes de problemas y los factores específicos de éxito y fracaso.
Septiembre 2008 Octubre 2008
6 15 Difusión de los resultados
Los resultados del análisis se formulan para su difusión. Se preparan las publicaciones correspondientes.
Noviembre 2008 Diciembre 2008
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  Con el presupuesto solicitado se comprarán: libros, software (herramientas de software, así como los corpus --las colecciones de datos necesarios para la experimentación) papel y tóner para las impresiones, discos gravables y otros medios de almacenamiento masivo de información (ya que se trata de procesamiento de grandes cantidades de textos) y respaldo de información, memoria y discos duros necesarios para la modernización y actualización del equipo de cómputo de que disponemos en nuestro Laboratorio, así como otros materiales necesarios en su momento para la operación del proyecto. 25000   
3000  El presupuesto de esta partida se utilizará para la movilidad de los estudiantes y profesores participantes del congreso, principalmente para la asistencia a congresos y reuniones de dcolaboración con otros grupos involucrados en las actividades relacionadas. 23000   
4000      
5000      
7000      
Total:  $ 48000