FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2009 - Diciembre 2009)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC     
Escuela, Centro o Unidad Sección. División o Departamento
Título
Desarrollo de gramáticas formales para reconocimiento de texto y voz

Registro asignado por la SIP:  20090772     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Las gramáticas formales es una herramienta tradicional de análisis de lenguaje natural. En este proyecto, primero vamos a desarrollar y aplicar una gramática formal para el análisis de ambigüedad de las secuencias nominales, y después desarrollaremos una gramática formal en un formato específico para el analizador sintáctico basándose en el algoritmo de conversión semiautomática de una gramática de inglés. Se sabe que las secuencias nominales son partes importantes de los textos, sin embargo no se sabe hasta qué grado son ambiguas. Nuestro estudio está orientado a detectar y analizar la ambigüedad mencionada de manera automática. Se desarrollará una gramática formal que determina las interpretaciones válidas de las cadenas nominales, por medio de un etiquetado automático de todos los elementos que la componen. Se utilizará como fuente de conocimiento un corpus de alguno de los estados de la república. Se analizará la ambigüedad de las secuencias nominales en este corpus.
Del otro lado, las gramáticas formales se aplican en el análisis sintáctico. Un formalismo utilizado son las Gramáticas de Adjunción de Árboles. Varias investigaciones sobre esta temática se han realizado para idiomas como inglés, francés y coreano, sin embargo, el idioma español carece de una gramática de este tipo. La presente investigación está centrada en la obtención de un algoritmo que permita generar una gramática basada en dicho formalismo para un idioma destino a partir de la gramática existente para un idioma origen, mediante la utilización de varios recursos léxicos (corpus de oraciones, diccionarios bilingües, diccionarios de sinónimos, diccionarios explicativos y bases de datos morfológicas).

1.2 Objetivo general
Desarrollar gramáticas formales para 1) el análisis de ambigüedad de secuencias nominales en el español y 2) el análisis sintáctico en el español utilizando el formalismo de gramáticas de adjunción de árboles basándose en conversión semiautomática de la gramática existente para el inglés. Aplicación del análisis desarrollado en la interfaz con el robot móvil.

1.3 Objetivos específicos
Las gramáticas formales 1) para el análisis de ambigüedad de secuencias nominales en el español y 2) para el análisis sintáctico en el español utilizando el formalismo de gramáticas de adjunción de árboles. Evaluación de aplicación de ambas gramáticas. Implementación del módulo de comunicación con el robot móvil.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh 
  
Coordinación de esfuerzos de programación, ayuda en programación de la interacción con el robot, ayuda en selección de metodología de evaluación y desarrollo.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Noé Alejandro Castro Sánchez PF Participación en metas.
2 Vicente Cubells Nonell TS Desarrollo del algoritmo de conversión de las gramáticas de adjunción de árboles
3 MOISES EDUARDO LAVIN VILLA PF Participación en metas.
4 Eduardo Lavín Villa TS Desarrollo de interfaz con el módulo de generación de voz (utilizando ATL)
5 Carlos Ignacio Reséndiz Juárez PF Participación en metas.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2009 - Diciembre 2009)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 análisis de los casos que causan aparición de la ambigüedad
Preparación de un pequeño corpus de pruebas.
Construcción del modelo que describe la formación de las secuencias nominales.
Verificación del modelo.
Enero 2009 Febrero 2009
2 5 desarrollo de la gramática formal que permite la construcción de la secuencia
Determinación del tipo de la gramática utilizando el modelo construido.
Determinación del alfabeto de los símbolos terminales y no terminales
Determinación de las reglas de la gramática
Febrero 2009 Marzo 2009
3 10 Preparación de las publicaciones y reportes.
Publicaciones y reportes
Febrero 2009 Diciembre 2009
4 5 desarrollo del programa de aplicación de la gramática formal
Desarrollo del módulo de interpretación de la entrada (gramática formal en un formato específico)
Desarrollo del módulo de interpretación de las reglas
Pruebas de funcionamiento
Marzo 2009 Abril 2009
5 20 desarrollo del módulo de comunicación con el robot móvil (como parte del program
Desarrollo de interfaz con el módulo de reconocimiento de voz (utilizando ATL)
Desarrollo de interfaz con el módulo de reconocimiento de voz (sin ATL)
Desarrollo de interfaz con el módulo de generación de voz (utilizando ATL)
Desarrollo de interfaz con el módulo de generación de voz (sin ATL)
desarrollo de interfaz con el módulo de planeación de las rutas
, ubicacion, represantacion del mapa
Abril 2009 Octubre 2009
6 5 obtención y preparación del corpus de las secuencias nominales en el español
Búsqueda en Internet del corpus grande de las secuencias nominales.
Preparación del corpus para la entrada del programa de procesamiento de la gramática
Abril 2009 Mayo 2009
7 10 aplicación de la gramática desarrollada y análisis de los resultados
Ejecución del programa
Análisis de los datos de salida
Verificación de la hipótesis de distribución según la ley de Zipf.
Mayo 2009 Junio 2009
8 10 desarrollo e implementación del algoritmo de conversión de una de las gramáticas
Desarrollo del módulo que obtiene todas las acepciones existentes para el idioma destino, de las palabras del idioma origen existentes en su base de datos sintáctica, y le asocia las mismas estructuras sintácticas.
Extensión de la base de datos obtenida a todas las formas morfológicas de las palabras.
Construcción de base de datos de los árboles sintácticos elementales.
Junio 2009 Agosto 2009
9 10 desarrollo e implementación del algoritmo de validación de la gramática
Determinación de las correspondencias regulares entre los árboles elementales en inglés y en español.
Desarrollo de módulo de validación para comprobar cuáles árboles sintácticos de los asociados en la etapa anterior permiten modelar la palabra del idioma destino con la cual se asociaron.
Adición a cada palabra existente en la base de datos sintáctica sus características o rasgos
Agosto 2009 Septiembre 2009
10 10 determinación de los árboles faltantes en la conversión y su preparación
Análisis de los árboles que corresponde a las palabras auxiliares en el idioma inglés
Análisis de los árboles que corresponde a las palabras auxiliares en el idioma español
desarrollo de las reglas de conversión
aplicación de las reglas de conversión o en su caso conversión manual
Septiembre 2009 Noviembre 2009
11 10 aplicación de la gramática obtenida a un corpus de prueba y evaluación
Adaptación del parser del idioma inglés para el español.
Selección del corpus de prueba (fragmento del corpus 3LB) marcado de manera manual.
Aplicación del parser al corpus seleccionado.
Selección de la metodología de comparación de los resultados (posiblemente, intersección de los paréntesis)
Desarrollo del programa de comparación de resultados.
Evaluación de los resultados.
Comparación.
Octubre 2009 Diciembre 2009
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  1) Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente (20,000 pesos). 2) compra del sensor laser para el robot móvil (para no utilizar los sonares como se hace actualmente, no es indispensable, pero es muy deseable adquirirlo junto con el software, ya que mejora mucho la calidad de determinación de las coordenadas). Este sensor cuesta alrededor de 50,000 pesos, por lo tanto solicitamos atentamente no disminuir la cantidad en esta partida. El software para este sensor se compra del presupuesto del otro proyecto. 70000   
3000  1. Compra de software especializado para el robot y 2. Asistencia a un congreso internacional para presentar los resultados del proyecto 15000   
4000      
5000      
7000  para la asistencia de los estudiantes a los congresos nacionales e internacionales para presentar los resultados del proyecto 14000   
Total:  $ 99000