INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Febrero 2003 - Marzo 2004)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Textos 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Construcción de diccionarios orientados al dominio a base de combinaciones de palabras clave

Registro asignado por la SIP:  20031731     
Datos del director(a) del Proyecto de investigación:
  Alexandrov     Aronovich     Mikhail  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  AEAM500825  CURP:  AEAM500825HNELRK01 
SNI:   ---   BECAS: COFAA  II  EDD  ---  EDI  VII  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55861262 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Mikhail Alexandrov Aronovich                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
<Long Text>

1.2 Objetivo general
<Long Text>

1.3 Objetivos específicos
En el marco del proyecto se espera obtener los siguientes resultados científicos:
1.Tecnología de construcción rápida de diccionarios orientados al dominio y sus sub-dominios
2.Metodología de construcción rápida de expresiones y combinaciones claves

Los resultados prácticos consisten en la creación de software que permitirá:
1.Usarlo por usuarios que no tiene experiencia fuerte en computaci

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Mikhail Alexandrov Aronovich Director del proyecto
2 Alexander Gelbukh Kahn
  
Jefe del Laboratorio del CIC(SNI nivel I, COFAA nivel IV, EDI nivel IX). Actividades: desarollo de los algoritmos de acceso a BD, desarollo de las reglas de prueba de combinaciones estables de palabras, consultas en programación de interface.
3 Pavel Makagonov Petrovich
  
Profesor Investigador de la Universidad Tecnologica de Mixteca, ex-Subdirector del centro analítico del Gobierno de Moscú. Actividades: desarollo de algorítmos de análisis de factores, desarrollo de algoritmos de clusterización y su consensus.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Denis Filatov Mikhailovich PF Estudiante de doctorado del CIC. Actividades: desarrollo de algoritmos de prueba de hipotesis acerca de uniformidad de conjunto de textos orientados al dominio
2 Erika Hernándes Rubio PF Estudiante de maestria del CIC. Actividades: desarrollo del modulo de control morfológico de palabras seleccionadas
3 Gilberto Martinez Luna PF Estudiante de doctorado del CIC. Actividades: desarrollo de los algoritmos de clusterización visual y experimentos numéricos con ellos
4 Raul Morales Carrasco TS Participacion en los experimentos de prueba de stemmer estadístico

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Febrero 2003 - Marzo 2004)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 15 Desarrollar los algoritmos de selección de sub-dominios dentro de un dominio dad
Evaluación de algoritmos y programación
Marzo 2003 Mayo 2003
2 30 Programar el software orientado a usuario
Programación de interface, programación de acceso a archivos de textos
Mayo 2003 Enero 2004
3 5 Realizar los experimentos numéricos con diccionarios
Evaluación de calidad de subdiccionarios a base de corpuses de documentos
Mayo 2003 Junio 2003
4 10 Desarrollar los procedimientos de construcción de combinaciones claves
Evaluación de algoritmos y programación
Julio 2003 Agosto 2003
5 10 Visitas científicas
Trabajo junto con investigadores del centro analítico del Gobierno de Moscú o depto de procesamiento de textos de la Universidad Autonoma de Barcelona
Julio 2003 Diciembre 2003
6 10 Realizar los experimentos numéricos con combinaciones claves
Búsqueda de reglas de selección de combinaciones estables de palabras claves
Agosto 2003 Octubre 2003
7 20 Publicaciones
Preparación de artículos
y informes técnicos
Agosto 2003 Febrero 2004
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Papeles y cartuchas a imprimir.
Equipo auxiliar para computadoras de laboratorio.
Concepto:
La construcción de diccionarios para dominios diferentes y realización de experimentos numerosos con ellos suponen imprimir muchas materiales. Por eso es necesario tener los gastos para impreso.
8000   
3000  Paisajes y viaticos.
Concepto:
Durante muchas años en el Centro Analítico del Gobierno de Moscú se desarrolla y se usa el software de procesamiento de textos basado en DODs (responsable es Dr. Makagonov). En la Universidad Autónoma de Barcelona se realizan algunos proyectos dedicados a metodología de construcción DODs (responsable es Dr. Blanco). La experiencia de los especialistas de estas instituciones sería muy útil para investigación en el marco de proyecto propuesto. Por el momento se prepara el convenio con el Goberno de Moscú.
12000   
4000      
5000  <Long Text> 25000   
7000      
Total:  $ 45000