FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Lab. de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Métodos de aprendizaje automático para detección de estructura morfémica de palabras en español

Registro asignado por la SIP:  20060735     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Correo electrónico Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
1. Introducción

Muchas aplicaciones de procesamiento automático de textos se benefician del conocimiento lingüístico de varios niveles. Uno de los niveles lingüísticos fundamentales es el nivel morfológico donde se hace la división de palabras en morfemas, por ejemplo, la palabras ?extrabajadores? se divide en cinco morfemas, ?ex-trabaj-a-dor-es?.
La idea básica del proyecto es desarrollar la metodología de división de palabras en morfemas para cualquier idioma basándose en uno o varios métodos de aprendizaje automático para encontrar la solución óptima global (por ejemplo, se puede usar un algoritmo genético o una red neuronal o su combinación), implementar la metodología en los algoritmos y aplicarlos para el lenguaje español.

2. Importancia y relevancia

La información de división de palabras en morfemas tiene un valor lingüístico importante y puede utilizarse en sistemas de procesamiento automático de textos, tales como búsqueda inteligente en las bases de datos o Internet, en traducción automática, donde es importante conocer las relaciones derivativas entre las palabras para la traducción correcta, análisis semántico automático, etc.
En el Laboratorio de lenguaje natural y procesamiento de texto del CIC-IPN desarrollamos un analizador morfológico automático para el español, sin embargo, este analiza las formas gramaticales (flexiones) y no contiene la información de sufijos, prefijos, ni palabras compuestas ? toda esta información se representa en las diferentes entradas no relacionadas entre si del diccionario del analizador. Para su funcionamiento el analizador usa el diccionario de 26,000 entradas que es suficiente para muchas aplicaciones pero nos gustaría hacerlo mucho más grande de manera automática y agregar allá la información de estructura de palabras. También en el laboratorio tenemos un corpus de lenguaje español de los periódicos mexicanos de 1 GB, el cual puede ser fuente de los datos. Tenemos experiencia en desarrollo y aplicación de los métodos de aprendizaje automático para análisis de los corpus.

3. Metodología
Para realizar el proyecto se realizarán las siguientes actividades:

Primer año:
1. Recopilación de los datos (palabras diferentes) para el español
a. a través de Internet,
b. sacando de los corpus existentes,
c. usando los sistemas de generación de las formas gramaticales.
2. Análisis de los métodos de aprendizaje automático existentes y elección de los métodos que son mejores para la tarea propuesta, analizando, sobre todo, la relación entre los métodos supervisados, débilmente supervisados y no supervisados,
3. Implementación de los métodos de aprendizaje automático elegidos,
4. Análisis de los datos morfológicos de varios idiomas detectando los parámetros que se varían entre idiomas: estructura de morfemas, posición de morfemas, número de morfemas
5. Desarrollo de la metodología y algoritmos de detección de estructura morfémica, donde se aplican el métodos seleccionados de aprendizaje automático al conjunto de datos recopilados, se buscan varias soluciones según los criterios lingüísticos propuestos, y se elige una solución de división en morfemas óptima (etapa de pruebas),

Segundo año:
1. Desarrollo de la metodología y algoritmos de detección de estructura morfémica, (etapa de desarrollo),
2. Implementación de los algoritmos de detección de estructura morfémica,
3. Preparación de los parámetros de la metodología para el español,
4. Experimentos con una cantidad bastante grande de palabras para el español (miles de palabras),
5. Evaluación de los resultados de experimentos para el español.
6. Pruebas con algunas cantidades moderadas de palabras para otros idiomas (decenas de palabras),
a. inglés,
b. turco,
c. ruso,
d. algunos otros (por ejemplo, árabe).

1.2 Objetivo general
El objetivo general consiste en el desarrollo de una metodología que permita dividir automáticamente las palabras en morfemas para cualquier idioma usando los métodos de aprendizaje automático, su implementación, su aplicación y evaluación para el idioma español.

1.3 Objetivos específicos
1. Metodología y el software para detección de estructura morfémica
de palabras usando los métodos de aprendizaje automático aplicable para idiomas de diferentes tipos.
2. Los datos para el español (lista de palabras con todas sus formas gramaticales para el español generada y sacada de los corpus e Internet).
3. Resultados de experimentos de detección de estructura morfémica
para el español

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   2 
Congresos  0   3  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   1 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Desarrollo del módulo de generación morfológica, aplicación de los programas de análisis morfológico, recopilación automática de los datos de los corpus. (Tiene mucha experiencia en el análisis morfológico de varios idiomas y procesamiento automático de los corpus)
3 Igor Bolshakov -
  
Consultas sobre los métodos de aprendizaje automático y recopilación de datos de Internet (Tiene mucha experiencia en aplicación de los métodos aprendizaje automático y procesamiento de los datos en Internet). Consultas lingüísticas sobre idiomas diferentes.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Vicente Cubells Nonell PF Recopilación de los datos (palabras diferentes) para el español a través de Internet. Análisis de los datos morfológicos de varios idiomas detectando los parámetros que se varían entre idiomas: estructura de morfemas, posición de morfemas, número de morfemas
2 José Ernesto Gómez Balderas PF Análisis de aplicabilidad de redes neuronales backpropagation para la detección de estructura morfémica de las palabras
Implementación de una red neuronal backpropagation
Preparación de los datos de entrada de una red neuronal relacionados con la estructura de las palabras.
Experimentos con la re
3 Diego Lara Reyes PF Recopilación de los datos (palabras diferentes) para el español usando los sistemas de generación de las formas gramaticales. Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de pruebas)
4 Omar Olivas Zazueta TS Aplicación del conocimiento de estrucutra morfológica de palabras en resolución de anáfora

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 15 Recopilación de los datos a través de Internet
Se escribe el programa robot que busca en Internet las páginas en español y despliega palabras en varias formas gramaticales que no están en el diccionario del sistema
Enero 2006 Marzo 2006
2 10 Recopilación de los datos de los corpus existentes
Se escribe el programa que en los corpus existentes en español y despliega palabras en varias formas gramaticales que no están en el diccionario del sistema
Enero 2006 Febrero 2006
3 15 Recopilación de los datos usando los sistemas de generación de las formas grama
Se escribe el programa que implementa un ciclo para todas las formas gramaticales, incluyendo las formas con clíticos verbales, y llama la función de generación que es parte del analizador morfológico que hemos desarrollado. En el analizador se implementó el método ?análisis a través de generación?, pero no existe una lista hecha de palabras.
Febrero 2006 Abril 2006
4 15 Análisis de los métodos de aprendizaje automático existentes y elección de los m
Se hace comparación de los métodos de aprendizaje automático existentes y se elige el método que mejor corresponde a los objetivos propuestos
Abril 2006 Junio 2006
5 10 Preparación de las publicaciones y reportes
Se preparan las publicaciones, reportes, y manuales del usuario.
Mayo 2006 Diciembre 2006
6 10 Análisis de los datos morfológicos de varios idiomas detectando los parámetros i
Se comparan las descripciones morfológicas de varios idiomas y se definen los parámetros que se deben tomar en cuenta los métodos de aprendizaje
Junio 2006 Septiembre 2006
7 15 Implementación de los métodos de aprendizaje automático elegidos
Se escribe el código que implementa el algoritmo en C++, se hace pruebas de funcionamiento correcto del programa
Junio 2006 Septiembre 2006
8 10 Desarrollo de la metodología y algoritmos de detección de estructura morfémica (
Se desarrolla el algoritmo a base del método desarrollado y se escribe el código que implementa la versión preliminar del algoritmo en C++ (para etapa de pruebas, sin interfaz de usuario y funciones adicionales).
Septiembre 2006 Noviembre 2006
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Partes de computadoras (memoria adicional, tarjetas de video, discos duros, teclados, etc.) $2,500.00

Discos DVD-ROM gravables de 8 GB (50 piezas x 100 pesos c/u) $5,000.00
7500   
3000  Mantenimiento de equipo. 5,000

Publicación de un libro derivado de los proyectos IPN, 25,000

Estancia de trabajo en la Universidad de Valencia (Dr. P. Rosso) donde se hacen trabajos sobre los métodos de de aprendizaje automático. 10,000

Participación de los integrantes de proyecto en un congreso nacional. 6,000
46000   
4000      
5000      
7000      
Total:  $ 53500   

Dictamen del Proyecto:
                                             Aprobado