FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC     
Escuela, Centro o Unidad Sección. División o Departamento
Título
Extracción automática de patrones sintácticos

Registro asignado por la SIP:  20100668     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Correo electrónico Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
El conocimiento de los argumentos que un verbo resulta ser una parte crucial dentro del área de procesamiento del lenguaje natural. Se pueden considerar para beneficio de diversas tareas como desarrollo de interfases humano máquina, extracción y recuperación de información, generación de resúmenes, traducción automática, enseñanza de lenguas extranjeras, etc. Sobre este tema, existen investigaciones avanzadas para la lengua inglesa, principalmente. Para el español, las investigaciones al respecto son escasas.
Las hipótesis de trabajo son las siguientes: 1) Los diccionarios explicativos proveen la suficiente información para identificar los actantes de un verbo. 2) Las agrupaciones de verbos formadas en el idioma español y en el inglés cuyos patrones sintácticos compartan características léxico-semánticas similares tanto en cada agrupación individual como entre las agrupaciones de ambos idiomas, establecerán correspondencias regulares entre ellas. 3) Si palabras diferentes en un idioma tienen la misma traducción en otro, entonces tienen significado similar. Palabras con un significado similar, tienen patrones de manejo sintáctico similares.
El objetivo del proyecto es identificar de manera automática patrones sintácticos del español basado en el análisis de definiciones de verbos extraídas de diccionarios explicativos y en las relaciones léxicas establecidas entre el predicado y sus argumentos, igual que en los datos extraídos de los textos paralelos español-inglés.
En el futuro se planea utilizar el diccionario de patrones sintácticos en la comunicación con el robot móvil.

1.2 Objetivo general
Identificar de manera automática patrones sintácticos del español basado en el análisis de definiciones de verbos extraídas de diccionarios explicativos y en las relaciones léxicas establecidas entre el predicado y sus argumentos, igual que en los datos extraídos de los textos paralelos español-inglés.

1.3 Objetivos específicos
Procedimiento de extracción de patrones sintácticos de los diccionarios explicativos con el posible uso de la información bilingüe.
Diccionario de patrones para el idioma español.
Módulo de comunicación con el robot móvil usando la red local.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   1 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   2 
Medio       Superior Posgrado
Tesistas  0   0   1 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Coordinación de esfuerzos de programación, ayuda en programación de la interacción con el robot, ayuda en selección de metodología de evaluación y desarrollo.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Grettel Barceló Alonso TS Apoyo en programación
2 FRANCISCO ANTONIO CASTILLO VELASQUEZ PF Aplicación de la herramienta de análisis sintáctico Connexor.
Formación de los sintagmas en los textos en español.
Conversión de los diccionarios explicativos obtenidos en el formato de bases de datos.
Preparación del diccionario WordNet para el español en el formato de una base de datos.
Compa
3 Francisco Castillo Velazques TS aplicación de la herramienta de análisis sintáctico Connexor.
formación de los sintagmas en los textos en español.
conversión de los diccionarios explicativos obtenidos en el formato de bases de datos.
Preparación del diccionario WordNet para el español en el formato de una base de datos.
Compa
4 Noe Castro Sanchez TS Preparación del conjunto de textos paralelos español inglés.
Evaluación y comparación de los resultados de análisis sintáctico.
Selección de un conjunto de los verbos para formar sintagmas.
alineación de los sintagmas.
Obtención del Internet de los diccionarios explicativos (RAE y diccionario de
5 NOÉ ALEJANDRO CASTRO SÁNCHEZ PF Preparación del conjunto de textos paralelos español inglés.
Evaluación y comparación de los resultados de análisis sintáctico.
Selección de un conjunto de los verbos para formar sintagmas.
Alineación de los sintagmas.
Obtención del Internet de los diccionarios explicativos (RAE y diccionario de
6 Eduardo Cendejas Castro TS Apoyo en programación
7 Ismael Diaz Rangel TS Apoyo en programación
8 Juve Andrea Herrera De la Cruz TS Apoyo en programción
9 Eduardo Lavín Villa TS apoyo en programación
10 Sabino Miranda Jimenez TS Apoyo en programación
11 Obdulia Pichardo Lagunas TS Aplicación de la herramienta de análisis sintáctico FreeLing.
Formación de los sintagmas en los textos en inglés.
Procesamiento morfológico de los diccionarios explicativos obtenidos.
Aplicación de WordNet a las palabras en definiciones buscando las relaciones semánticas.
Etc. (no cabe)

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Realizar análisis sintáctico en textos paralelos español?inglés.
Preparación del conjunto de textos paralelos español inglés.
aplicación de la herramienta de análisis sintáctico Connexor.
aplicación de la herramienta de análisis sintáctico FreeLing.
Evaluación y comparación de los resultados de análisis sintáctico.
Enero 2010 Febrero 2010
2 20 Implementar la comunicación con el robot móvil usando la red local con radiomode
Implementación del protocolo de comunicación con el robot móvil en la red local utilizando el API de las librerías correspondientes.
Implementación del protocolo de comunicación con el robot móvil con radiomodems utilizando el API de las librerías correspondientes.
Enero 2010 Diciembre 2010
3 10 Preparación de las publicaciones y reportes.
Preparación de las publicaciones y reportes.
Enero 2010 Diciembre 2010
4 15 Formar y alinear los sintagmas en los textos paralelos analizados.
Selección de un conjunto de los verbos.
formación de los sintagmas en los textos en español.
formación de los sintagmas en los textos en inglés.
alineación de los sintagmas.
Febrero 2010 Marzo 2010
5 5 Extraer la definición de un diccionario explicativo de la lengua española de los
Obtención del Internet de los diccionarios explicativos (RAE y diccionario de Maria Moliner).
conversión de los diccionarios explicativos obtenidos en el formato de bases de datos.
procesamiento morfológico de los diccionarios explicativos obtenidos
extracción de las definiciones de los diccionarios.
Marzo 2010 Mayo 2010
6 5 Identificar rasgos semánticos y relaciones semánticas (hiponimia, meronimia, etc
Preparación del diccionario WordNet para el español en el formato de una base de datos.
Aplicación de WordNet a las palabras en definiciones buscando las relaciones semánticas.
Mayo 2010 Junio 2010
7 10 Listar los candidatos a patrones sintácticos identificados en las definiciones.
Detección preliminar de los patrones sintácticos.
Junio 2010 Julio 2010
8 10 Estudiar la proyección que se da entre estos candidatos a patrones sintácticos y
Comparación de los patrones sintácticos obtenidos con las sintagmas formadas
Julio 2010 Septiembre 2010
9 10 Depurar la lista de candidatos a patrones sintácticos con el estudio de la proye
Selección manual de los patrones sintácticos más probables
Septiembre 2010 Octubre 2010
10 10 Crear un diccionario de patrones ingresando: los verbos y sus respectivos patron
Preparación del diccionario de patrones en el formato de una base de datos
Octubre 2010 Diciembre 2010
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente (50,000 pesos). 50000   
3000  Asistencia a un congreso internacional para presentar los resultados del proyecto 15000   
4000      
5000      
7000  Asistencia de los estudiantes a los congresos nacionales e internacionales para presentar los resultados del proyecto 20000   
Total:  $ 85000   

Dictamen del Proyecto:
                                             Aprobado