INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Abril 2004 - Marzo 2005)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Extracción automática de los grafos conceptuales de los textos en español, con aplicaciones a la recuperación de información

Registro asignado por la SIP:  20040694     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
<Long Text>

1.2 Objetivo general
Desarrollar las técnicas y algoritmos para la converción automática de un texto en español a una representación lógica formal que facilita el procesamiento de su contenido semántico por la computadora; con la aplicación a la búsqueda semántica avanzada de documentos en español en Internet y bibliotecas digitales.

1.3 Objetivos específicos
Tecnologías, algoritmos y software que permiten convertir automáticamente un texto en español a una representación lógica formal para el procesamiento de su contenido semántico por la computadora; módulos de software usables en un sistema de búsqueda semántica avanzada de documentos en español en Internet y bibliotecas digitales.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Igor Bolshakov Mironova
  
Desarrollo de los fundamentos teóricos de los métodos empleados. Consultas en los métodos de análisis semántico y las teorías de las representaciones semánticas, sobre todo en la teoría de Significado -- Texto.
3 Grigori Sidorov 
  
Integración del Proyecto con el analizador sintáctico. Realización de las partes correspondientes de los algoritmos. Colaboración en el desarrollo de los métodos de transformación de los árboles sintácticos a los grafos conceptuales. Coautoría en las publicaciones principales.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Hiram Calvo Castro PF Participación en el desarrollo de los métodos principales (tareas 1, 2, 6). Participación en la la evaluación y pruebas (meta 10), preparación de las publicaciones y la documentación (metas 11, 14, 15).
2 Hiram Calvo Castro TS Participación en el desarrollo de los métodos principales (tareas 1, 2, 6).
Participación en la evaluación y pruebas (meta 10),
preparación de las publicaciones y la documentación (metas 11, 14, 15).
3 Tania Lugo García TS Programación, desarrollo de algoritmos para las metas 2, 3, 6. Participación en la preparación de las publicaciones y la documentación (metas 11, 15).
4 Valentina Muñoz Porras TS Instalación y aplicación del sistema GATE y las pruebas de su integración con el analizador bajo desarrollo (metas 2, 8). Participación en la preparación de la documentación (metas 11, 15). Preparación de la tesis (meta 13)
5 Adalberto Robles Valadez PF Estudios teóricos, programación, diseño e implementación de los algoritmos para las metas 2, 4, 6, 7. Integración de algunos módulos y realización de pruebas (metas 9, 10). Preparación de la tesis (meta 12). Participación en la preparación de las publicaciones y la documentación (metas 11, 14, 15).
6 Kwangcheol Shin  TS Investigación en las aplicaciones de la representación formal de los textos en la recuperación de información.
7 Javier Tejada Cárcamo PF Programación, desarrollo de algoritmos de conversión e integración de los mismos con el analizador (metas 3, 5). Participación en la preparación de las publicaciones y la documentación (metas 11, 15).

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Abril 2004 - Marzo 2005)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Estudios
Estudios teóricos sobre las representaciones semánticas empleando los grafos conceptuales.
Abril 2004 Abril 2004
2 10 Estudios
Estudio del funcionamiento del analizador sintáctico y los fundamentos teóricos de las representaciones sintácticas en las gramáticas de dependencias. Estudio de diversas variantes de los analizadores sintácticos disponibles.
Mayo 2004 Mayo 2004
3 10 Desarrollo
Desarrollo e implementación del convertidor de la representación del árbol sintáctico de la forma de constituyentes a la de dependencias.
Junio 2004 Junio 2004
4 5 Divulgación
Preparación de las publicaciones.
Junio 2004 Marzo 2005
5 5 Diseño
Diseño de las interfaces de entrada y salida del analizador semántico.
Julio 2004 Julio 2004
6 8 Desarrollo
Desarrollo e implementación del convertidor de la salida del analizador sintáctico disponible al formato de entrada del analizador semántico.
Agosto 2004 Agosto 2004
7 5 Construcción de base de datos
Construcción de la base de reglas para la transformación del árbol sintáctico al formato del grafo conceptual.
Septiembre 2004 Septiembre 2004
8 10 Implementación
Implementación del convertidor de los árboles sintácticos al formato de grafos conceptuales.
Octubre 2004 Octubre 2004
9 5 Integración
Integración con el módulo de resolución de anáfora. Pruebas de integración con el sistema GATE.
Noviembre 2004 Noviembre 2004
10 7 Integración
Integración con el módulo de la recuperación de información.
Diciembre 2004 Diciembre 2004
11 5 Evaluación
Pruebas, evaluación y correcciones.
Enero 2005 Enero 2005
12 5 Documentación
Preparación de la documentación final.
Febrero 2005 Febrero 2005
13 5 Tesis
Preparación de la tesis del Ing. Macario Hernández Cruz.
Marzo 2005 Marzo 2005
14 5 Informe
Documentación y preparación del Informe Técnico
Marzo 2005 Marzo 2005
15 5 Tesis
Preparación de la tesis de la C. Valentina Muñoz Porras.
Marzo 2005 Marzo 2005
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Papel, acetatos y cartuchos para impresoras: $5,000.00; Libros de Ediciones Mexicanas, Norte Americanas, Europeas: $2,000.00; Actas de Congresos Internacionales en Lingüística $1,000.00; Partes de computadoras (tarjetas, memoria, discos, teclados, etc.): $19,000.00; Discos CD-ROM y DVD-ROM gravables (150 piezas x 20 pesos c/u): $3,000.00; Discos DVD-ROM re-gravables (20 piezas x 50 pesos c/u): $1,000.00; Cartuchos de cinta (20 piezas x 100 pesos c/u): $2,000.00; Disquetes (100 piezas x 5 pesos c/u): $500.00 34500   
3000  Copias de documentos: $2,000.00; Impresión de tesis: $3,000.00 5000   
4000      
5000      
7000      
Total:  $ 39500