INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Febrero 2003 - Marzo 2004)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Método mejorado de desambiguación de sentidos de palabras basado en el diccionario de colocaciones y en el reagrupamiento automático de sentidos de palabras en el diccionario explicativo

Registro asignado por la SIP:  20031322     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
<Long Text>

1.2 Objetivo general
Desarrollar un método mejorado para la resolución automática de ambigüedad de sentidos de palabras en los textos en español, basado en un diccionario de colocaciones y el agrupamiento automático de los sentidos de palabras en el diccionario explicativo del español.

1.3 Objetivos específicos
1. El método mejorado, y el software correspondiente, para desambiguación de sentidos de palabras basado en el diccionario de colocaciones,

2. El método, y el software correspondiente, para calcular la similitud entre los sentidos de palabras,

3. El método, y el software correspondiente, para el agrupamiento automático de sentidos de palabras en el diccionario explicativo del español.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexandre Guelboukh Kahn
  
Tareas de agrupamiento
3 Igor Bolshakov Mironova
  
Tareas de interfaz con el diccionario de colocaciones y aplicación de colocaciones para desambiguación de sentidos de palabras


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Francisco Castillo Velázquez TS La tesis incluye el desarrollo final del módulo de análisis morfológico automático, el cual es la base de los otros módulos de procesamiento de textos, por eso es parte importante del proyecto.
2 Alejandro Noé Castro Sanchez PF Desarrollo y programación de algoritmos de agrupamiento
3 Yoel Ledo Mezquita TS Preparación de los datos, ejecución de los experimentos, procesamiento de los datos experimentales
4 Tania Lugo García PF Desarrollo y programación de algoritmos de aplicación de colocaciones para desambiguación de sentidos de palabras
5 Wilbert A. Olán Cristóbal PF Desarrollo y programación de algoritmos de cálculo de similitud
6 Gabriela Rivera Loza TS La tesis incluye la extracción de una de las fuentes adicionales de la información que se usa en desambiguación de sentidos de palabras ?las primitvas semánticas?, por eso es parte importante del proyecto.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Febrero 2003 - Marzo 2004)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Interfaz con el diccionario de colocaciones
Desarrollar la interfaz con el diccionario de colocaciones que se usan en la desambiguación (el diccionario se prepara en los otros proyectos del programa de investigación)
Marzo 2003 Abril 2003
2 25 El método de desambiguación
Diseñar el método de desambiguación de sentidos de palabras que se basa en el diccionario de colocaciones y implementarlo.
Abril 2003 Julio 2003
3 15 Publicaciones y reportes
Preparar las publicaciones y reportes
Junio 2003 Febrero 2004
4 10 Pruebas de eficiencia del método
Realizar pruebas de eficiencia del método en una colección de documentos en español.
Julio 2003 Agosto 2003
5 25 El método de evaluación de similitud de sentidos
Diseñar el método de evaluación de similitud de sentidos de la misma palabra (basándose en el analizador morfológico y diccionario de sinónimos) e implementarlo.
Septiembre 2003 Noviembre 2003
6 5 Agrupar los similares sentidos
Agrupar los similares sentidos de palabras
Noviembre 2003 Noviembre 2003
7 10 Experimentos con los resultados de agrupamiento
Hacer experimentos con los resultados de agrupamiento en una colección de documentos en español.
Diciembre 2003 Enero 2004
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  1. Papel, acetatos, libros y tintas para impresoras $9,000.00
2. Monitor 17 pulgadas TFT (sólo modelo DELL 1702FP, otros modelos no tienen las caracteristcas necesarias) $12,000.00
3. Partes de computadoras (memoria adicional, discos duros, teclados, etc.) $10,500.00
4. Discos CD-ROM gravables (150 piezas x 10 pesos c/u) $1,500.00
33000   
3000  <Long Text> 8000   
4000      
5000  <Long Text> 18000   
7000      
Total:  $ 59000