FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2009 - Diciembre 2009)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Medidas de ponderación y funciones de semejanza entre las palabras, para el procesamiento inteligente de texto, desambiguación semántica y clasificación de documentos en lenguaje natural

Registro asignado por la SIP:  20091587     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En varias aplicaciones del procesamiento de lenguaje natural, tales como la extracción automática de conocimiento de los textos en Internet, la traducción automática, la clasificación y agrupamiento de documentos textuales, etc., uno de los puntos claves de los algoritmos correspondientes es la medición cuantitativa de la semejanza semántica entre las palabras: ¿en qué medida se parece la palabra "gato" a "perro"? ¿y a "desarmador"? ¿en qué contextos se parece a una y en qué a otra?

El saber esto permite, entre otras cosas, la desambiguación semántica: "Se ponchó su llanta y tenía que usar el GATO" / "El GATO se comió al RATÓN" / "Conectó el RATÓN y el teclado a su portátil". El poder distinguir automáticamente los significados de las palabras en su contexto es indispensable para el funcionamiento correcto de los programas inteligentes de la extracción de conocimiento de los textos e interacción humano-computadora. Otra aplicación en donde es necesario medir la semejanza semántica entre las palabras y ponderar la importancia de las palabras individuales es la clasificación de documentos textuales: ¿a cuál documento de la colección o muestra de entrenamiento más parece el documento dado, por las palabras que usa?

En el proyecto se desarrollarán ciertos algoritmos inteligentes para la construcción de una base de datos de la semejanza de las palabras, junto con las aplicaciones para la desambiguación de los sentidos de las palabras (¿cuál "gato"?) y la clasificación de documentos textuales.

1.2 Objetivo general
Estudio de los algoritmos para la definición cuantitativa, en base al análisis de los textos disponibles, de la semejanza entre las palabras, así como las aplicaciones para la desambiguación de los sentidos de las palabras y la clasificación de documentos textuales.

1.3 Objetivos específicos
Una base de datos de la semejanza de las palabras, junto con los algoritmos para su formación automática en base al análisis de los textos disponibles, así como los algoritmos y programas para la desambiguación de los sentidos de las palabras y la clasificación de documentos textuales.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov 
  
Consultoría en los asuntos lingüísticos del procesamiento de lenguaje natural y el diseño de los algoritmos correspondientes.
3 Hiram Calvo Castro
  
Participación en el diseño de los algoritmos para la construcción de las medidas de semejanza y para la clasificación de los textos, sobre todo con la aplicación a la clasificación de las fichas bibliográficas.
4 Salvador Godoy Calderón
  
Participación en el diseño de los algoritmos de clasificación, sobre todo de los con el enfoque lógico-combinatorio.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Grettel Barceló Alonso TS Desarrollo de los algoritmos de reconocimiento de patrones y correspondencias en los textos multilingües, con aplicaciones a la desambiguación de los sentidos de las palabras.
2 Horacio Alberto García Salas TS Desarrollo de los algoritmos de reconocimiento de patrones en las cadenas de símbolos.
3 OLGA KOLESNIKOVA - PF Participación en metas.
4 Olga Kolesnikova - TS Estudio de las propiedades semánticos de los textos útiles para su desambigüación semántica.
5 Moisés Eduardo Lavín Villa TS Desarrollo de los algoritmos complementarios para el procesamiento de los textos multilingües.
6 Alfredo López Monroy TS Desarrollo de los algoritmos para la clasificación y búsqueda en los documentos del dominio jurídico.
7 Carlos Ignacio Reséndiz Juárez TS Desarrollo de los algoritmos para el estudio de los significados de las palabras.
8 Miguel Angel Ríos Gaona PF Participación en metas.
9 Miguel Ángel Ríos Gaona TS Desarrollo de los algoritmos para la detección de la implicación semántica en el texto.
10 Javier Tejada Cárcamo TS Construcción de la base de datos de los valores de la semejanza semántica entre las palabras.
11 SULEMA TORRES RAMOS PF Participación en metas.
12 Sulema Torres Ramos TS Desarrollo de los algoritmos para la desambiguación semántica de los sentidos de las palabras.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2009 - Diciembre 2009)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Estudio bibliográfico
Se efectuará un estudio bibliográfico sobre los temas principales del proyecto.
Enero 2009 Enero 2009
2 10 Diseño de la estructura de la base de datos
Se diseñará de la estructura de la base de datos principal para la organización de la información obtenida sobre la semejanza de las palabras, así como de las varias bases de datos que se usarán en diferentes tareas del proyecto.
Febrero 2009 Febrero 2009
3 10 Construcción de la base de datos sintácticos
Se construirá la base de datos sintácticos, la cual es necesaria para la obtención de los datos léxicos.
Marzo 2009 Marzo 2009
4 10 Construcción de la base de datos léxicos
Se construirá la base de datos de los rasgos de las palabras, para su posterior clasificación y la construcción de las medidas de la semejanza.
Abril 2009 Abril 2009
5 5 Obtención de una muestra la base de datos de la semejanza
Se construirá una pequeña base de datos de la semejanza entre las palabras, como una muestra del proceso y su resultado, la cual también se usará de prueba para los demás algoritmos que la usan.
Mayo 2009 Mayo 2009
6 10 Elaboración de los algoritmos para la DSP
Se diseñarán los algoritmos para la desambiguación de los sentidos de las palabras (DSP), para la aplicación y pruebas de la base de datos construida.
Junio 2009 Junio 2009
7 5 Aplicación de la base obtenida a la tarea de DSP
Se integrará la base obtenida en el algoritmo de DSP diseñado, y se evaluará el resultado.
Julio 2009 Julio 2009
8 5 Elaboración de la base de datos para la clasificación de los textos
Se elaborará una base de datos de documentos textuales, tales como las fichas bibliográficas, para las pruebas de la clasificación de textos.
Agosto 2009 Agosto 2009
9 5 Aplicación de la base obtenida a la tarea de clasificación
Se aplicará la base de las semejanzas obtenida previamente, al algoritmo de clasificación de textos, tales como las fichas bibliográficas.
Septiembre 2009 Septiembre 2009
10 10 Expansión de la base de datos de la semejanza
Se efectuará el procesamiento masivo de los datos necesario para la expansión de la base de datos de la semejanza entre las palabras hasta el tamaño útil en las aplicaciones esperadas.
Octubre 2009 Octubre 2009
11 10 Evaluación de los resultados
Se analizarán y se evaluarán los resultados de los experimentos, y se obtendrán las conclusiones correspondientes.
Noviembre 2009 Noviembre 2009
12 10 Publicación de los resultados
Se elaborarán las publicaciones sobre los resultados, las cuales serán posteriormente enviadas a los relevantes foros de prestigio.
Diciembre 2009 Diciembre 2009
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Adquisición de software, bases de datos y colecciones de textos, dicionarios en formato electrónico (bases de datos lingüísticos), libros, partes y repuestos para las computadoras (discos, memoria, etc.) y otros medios de almacenamiento masivo de datos. Se planea adquirir un biblioteca de software con el costo de US$1800 y un paquete para el análisis de lenguaje con el costo de US$2300. 46000   
3000  Copiado, escaneado (se necesitará escanear unos diccionarios), empastado de las tesis, gastos de publicación y otros servicios necesarios. 6000   
4000      
5000      
7000  Asistencia a los congresos más relevantes del área de investigación. Se planea presentar los resultados del proyecto en varios foros internacionales importantes. Los gastos posibles son (por dos viajes al extranjero): 2 x US$ 1500 boletos, 2 x US$100 x 5 días hotel = MN$ 48,000. 48000   
Total:  $ 100000