FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Mйtodos de aprendizaje automбtico para detecciуn de estructura morfйmica de palabras en espaсol

Registro asignado por la SIP:  20071579  Registro Anterior  20060735   
    Porcentaje de avance:  50   
Datos del director(a) del Proyecto de investigaci�n:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56518  Correo electrónico Tel�fono particular:  5591887293 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno    
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica     X    Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
Muchas aplicaciones de procesamiento automático de textos se benefician del conocimiento lingüístico de varios niveles. Uno de los niveles lingüísticos fundamentales es el nivel morfológico donde se hace la división de palabras en morfemas, por ejemplo, la palabras ?extrabajadores? se divide en cinco morfemas, ?ex-trabaj-a-dor-es?.
La idea básica del proyecto es desarrollar la metodología de división de palabras en morfemas para cualquier idioma basándose en uno o varios métodos de aprendizaje automático para encontrar la solución óptima global (por ejemplo, se puede usar un algoritmo genético o una red neuronal o su combinación), implementar la metodología en los algoritmos y aplicarlos para el lenguaje español.
La información de división de palabras en morfemas tiene un valor lingüístico importante y puede utilizarse en sistemas de procesamiento automático de textos, tales como búsqueda inteligente en las bases de datos o Internet, en traducción automática, donde es importante conocer las relaciones derivativas entre las palabras para la traducción correcta, análisis semántico automático, etc.

1.2 Objetivo general
El objetivo general consiste en el desarrollo de una metodología que permita dividir automáticamente las palabras en morfemas para cualquier idioma usando los métodos de aprendizaje automático, su implementación, su aplicación y evaluación para el idioma español.

1.3 Objetivos específicos
Metodología y el software para detección de estructura morfémica
de palabras usando los métodos de aprendizaje automático aplicable para idiomas de diferentes tipos.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   1 
Congresos  0   2  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  1   0 
Medio       Superior Posgrado
Tesistas  0   0   1 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh 
  
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con algunas cantidades moderadas de palabras para otros idiomas: inglés. (Tiene mucha experiencia en el análisis morfológico de varios idiomas y procesamiento automático de los corpus)
3 Igor Bolshakov 
  
Consultas sobre los métodos de aprendizaje automático (Tiene mucha experiencia en aplicación de los métodos aprendizaje automático). Consultas lingüísticas sobre idiomas diferentes. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso.


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 Jose Ernesto Gomez Balderas TS Se investigo aplciacion de otros tipos de aprendizaje automatico a la tarea de division de palabras, basicamente, redes neuronales.
2 Diego Lara Reyes PF Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con cantidades grandes de palabras para el español. Evaluación semiautomática de los resultados de experimentos para el español.
3 Diego Lara Reyes TS La tesis es parte sustancial del proyecto.
Ya se solicito el examen de puerta cerrada.
4 Analhy Ochoa Vargues PF Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso. Evaluación semiautomática de los resultados de experimentos para el español.
5 Obdulia Pichardo Lagunas PF Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: maya. Evaluación semiautomática de los resultados de experimentos para el español.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 20 Desarrollo de la metodología y algoritmos de detección de estructura morfémica
Se desarrolla la metodología en su versión definitiva dependiendo de varios parámetros morfológicos existentes en idiomas diferentes. Se desarrolla el algoritmo de separación de palabras en morfemas a base de la metodología.
Enero 2007 Marzo 2007
2 15 Implementación de los algoritmos de detección de estructura morfémica
Se escribe el código que implementa la versión definitiva del algoritmo en C++ (con interfaz del usuario, interacciones con bases de datos, y salida estructurada con varios formatos).
Marzo 2007 Mayo 2007
3 10 Preparación de las publicaciones y reportes
Se preparan las publicaciones y reportes
Mayo 2007 Diciembre 2007
4 15 Experimentos con una cantidad bastante grande de palabras para el español
Se usan los datos de entrada generadas durante primer año de proyecto y se aplica el algoritmo desarrollado, tanto usando todas las formas, como usando solamente las entradas léxicas. Se investiga influencia de varios parámetros del algoritmo a los resultados.
Junio 2007 Julio 2007
5 20 Evaluación semiautomática de los resultados de experimentos para el español
Se desarrolla el software para la evaluación semiautomática de los resultados de detección de la estructura morfémica de palabras, incluyendo el módulo de presentación de resultados,
Se hace comparación manual de los datos y comparación automática con los datos de entrenamiento.
Se detectan los modelos de derivación de palabras haciendo diferentes agrupamientos de los resultados de división.
S
Julio 2007 Octubre 2007
6 5 Pruebas con algunas cantidades moderadas de palabras para inglés
Se compila un corpus pequeño para el idioma inglés.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Septiembre 2007 Octubre 2007
7 5 Pruebas con algunas cantidades moderadas de palabras para maya
Se compila un corpus pequeño para el idioma maya.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Octubre 2007 Noviembre 2007
8 5 Pruebas con algunas cantidades moderadas de palabras para turco
Se compila un corpus pequeño para el idioma turco.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007 Diciembre 2007
9 5 Pruebas con algunas cantidades moderadas de palabras para ruso
Se compila un corpus pequeño para el idioma ruso.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007 Diciembre 2007
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  1. Cartuchos de impreresión: 4 * 1,000 = 4,000
2. Partes de computadoras (memoria adicional, discos duros, teclados, etc.) 2,500
Discos DVD-ROM gravables de 8 GB (30 piezas x 100 pesos c/u)3,000
9500   
3000  Mantenimiento de equipo. 2,000
Estancia de trabajo en la Universidad de Valencia (Dr. P. Rosso) donde se hacen los trabajos sobre los métodos de de aprendizaje automático. 10,000
Participación de los integrantes de proyecto en un congreso nacional. 6,000
18000   
4000      
5000      
7000      
Total:  $ 27500