FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2008 - Diciembre 2008)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Generación de resumenes de textos por computadora con la detección automática de expresiones multipalabra

Registro asignado por la SIP:  20082936     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En este proyecto se abarcará un problema de suma importancia para el manejo de conocimiento en forma textual: la representación consisa de documentos grandes o de las colecciones de texto grandes. Eso facilita la comprensión de la información por los seres humanos, ahorra el tiempo en la lectura, y facilita la toma de decisiones (aumentando la calidad de tales decisiones) en todas las situaciones en las cuales la persona que toma la decisión necesita conocer o consultar grandes volúmenes de información.

Para esta tarea, es indispensable la ayuda que nos brinde la computadora en el manejo del conocimiento. Es la computadora que puede "leer" los enormes volúmenes de información, en forma textual, relevantes para tal o cual decisión; no es posible que un ser humano lea tanta información que está disponible hoy en día en forma digital. Sin embargo, la computadora puede resumir la información procesada por ella en un texto corto y entendible por el ser humano. La generación de resúmenes por computadora (text summarization) es hoy en día un área de la lingüística computacional con un desarrollo muy activo en el mundo, aunque casi siempre con aplicación al lenguaje inglés y no español.

En este proyecto desarrollaremos técnicas novedosas para la generación de resúmenes por computadora, basadas en la detección automática de expresiones multipalabra relevantes para un documento dado o una colección de documentos dada. Para esto, aplicaremos métodos estadísticos de detección de secuencias frecuentes, de comparación suave de las palabras, y de resolución de ambigüedad de sentidos de las palabras.

El proyecto contribuirá también al desarrollo de tesis de varios alumnos, de los cuales esperamos que se graduarán dos al término de este proyecto, y otros continuarán sus estudios de doctorado, mientras que el proyecto será una parte de su investigación doctoral.

1.2 Objetivo general
Desarrollar métodos, algoritmos y programas de software para la generación automática de resúmenes extractivos a través de la detección automática de expresiones multipalabra.

1.3 Objetivos específicos
Programa de software capaz de generar autompaticamente resúmenes de texto, sin emplear grandes diccionarios desarrollados manualmente para tal fin.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov 
  
Consultoría en las cuestiones lingüísticas. Desarrollo de herramientas lingüísticas de soporte lexicográfico.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Ricardo Ávila Argüelles TS Colaboración en varias tareas del proyecto.
2 OLGA KOLESNIKOVA - PF Colaboración en varias tareas del proyecto.
3 Diego Lara Reyes TS Colaboración en varias tareas del proyecto.
4 Yulia Ledeneva -- TS Desarrollo de los algoritmos principales.
5 Steve Legrand  TS Elaboración teórica de los métodos para la desambiguación de los sentidos de las palabras.
6 Alfredo Lopez Monroy PF Colaboración en varias tareas del proyecto. Se graduó de Maestría, con Mención Honorífica. Entró al Doctorado del CIC-IPN.
7 Alfredo López Monroy TS Colaboración en varias tareas del proyecto.
8 SULEMA TORRES RAMOS PF Colaboración en varias tareas del proyecto.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2008 - Diciembre 2008)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 15 Investigación del estado del arte
Los estudiantes se familiarizan con el estado del arte y los métodos existentes en sus respectivas tareas.
Enero 2008 Febrero 2008
2 15 Desarrollo teórico de los métodos
En cada línea de investigación del proyecto se definen los caminos de su realización y se desarrollan los algoritmos y métodos a desarrollar.
Marzo 2008 Abril 2008
3 15 Inplementación compútacional
En cada línea de investigación del proyecto, se van desarrollando los programas de software correspondientes a los métodos desarrollados en la etapa anterior.
Mayo 2008 Junio 2008
4 20 Experimentación
Se aplican los programas desarrollados en la etapa anterior, a los datos reales (los corpus de texto) y se acumulan los resultados que generan los algoritmos correspondientes.
Julio 2008 Agosto 2008
5 20 Evaluación y análisis
Los resultados obtenidos en la etapa anterior se evalúen contra los corpus estándares existentes (gold standard) elaborados para este fin (tal evaluación no es un paso trivial sino involucra bastantes procesos computacionales sobre tales corpus). Los resultados de tal evaluación se analizan y se determinan las fuentes de problemas y los factores específicos de éxito y fracaso.
Septiembre 2008 Octubre 2008
6 15 Difusión de los resultados
Los resultados del análisis se formulan para su difusión. Se preparan las publicaciones correspondientes.
Noviembre 2008 Diciembre 2008
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Con el presupuesto solicitado se comprarán: libros, software (herramientas de software, así como los corpus --las colecciones de datos necesarios para la experimentación) papel y tóner para las impresiones, discos gravables y otros medios de almacenamiento masivo de información (ya que se trata de procesamiento de grandes cantidades de textos) y respaldo de información, memoria y discos duros necesarios para la modernización y actualización del equipo de cómputo de que disponemos en nuestro Laboratorio, así como otros materiales necesarios en su momento para la operación del proyecto. 25000   
3000  El presupuesto de esta partida se utilizará para la movilidad de los estudiantes y profesores participantes del congreso, principalmente para la asistencia a congresos y reuniones de dcolaboración con otros grupos involucrados en las actividades relacionadas. 23000   
4000      
5000      
7000      
Total:  $ 48000