FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2007 - Diciembre 2007)

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Mйtodos de aprendizaje automбtico para detecciуn de estructura morfйmica de palabras en espaсol

Registro asignado por la SIP:  20071579  Registro Anterior  20060735   
    Porcentaje de avance:  50   
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Muchas aplicaciones de procesamiento automático de textos se benefician del conocimiento lingüístico de varios niveles. Uno de los niveles lingüísticos fundamentales es el nivel morfológico donde se hace la división de palabras en morfemas, por ejemplo, la palabras ?extrabajadores? se divide en cinco morfemas, ?ex-trabaj-a-dor-es?.
La idea básica del proyecto es desarrollar la metodología de división de palabras en morfemas para cualquier idioma basándose en uno o varios métodos de aprendizaje automático para encontrar la solución óptima global (por ejemplo, se puede usar un algoritmo genético o una red neuronal o su combinación), implementar la metodología en los algoritmos y aplicarlos para el lenguaje español.
La información de división de palabras en morfemas tiene un valor lingüístico importante y puede utilizarse en sistemas de procesamiento automático de textos, tales como búsqueda inteligente en las bases de datos o Internet, en traducción automática, donde es importante conocer las relaciones derivativas entre las palabras para la traducción correcta, análisis semántico automático, etc.

1.2 Objetivo general
El objetivo general consiste en el desarrollo de una metodología que permita dividir automáticamente las palabras en morfemas para cualquier idioma usando los métodos de aprendizaje automático, su implementación, su aplicación y evaluación para el idioma español.

1.3 Objetivos específicos
Metodología y el software para detección de estructura morfémica
de palabras usando los métodos de aprendizaje automático aplicable para idiomas de diferentes tipos.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh 
  
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con algunas cantidades moderadas de palabras para otros idiomas: inglés. (Tiene mucha experiencia en el análisis morfológico de varios idiomas y procesamiento automático de los corpus)
3 Igor Bolshakov 
  
Consultas sobre los métodos de aprendizaje automático (Tiene mucha experiencia en aplicación de los métodos aprendizaje automático). Consultas lingüísticas sobre idiomas diferentes. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Jose Ernesto Gomez Balderas TS Se investigo aplciacion de otros tipos de aprendizaje automatico a la tarea de division de palabras, basicamente, redes neuronales.
2 Diego Lara Reyes PF Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con cantidades grandes de palabras para el español. Evaluación semiautomática de los resultados de experimentos para el español.
3 Diego Lara Reyes TS La tesis es parte sustancial del proyecto.
Ya se solicito el examen de puerta cerrada.
4 Analhy Ochoa Vargues PF Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso. Evaluación semiautomática de los resultados de experimentos para el español.
5 Obdulia Pichardo Lagunas PF Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: maya. Evaluación semiautomática de los resultados de experimentos para el español.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2007 - Diciembre 2007)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 20 Desarrollo de la metodología y algoritmos de detección de estructura morfémica
Se desarrolla la metodología en su versión definitiva dependiendo de varios parámetros morfológicos existentes en idiomas diferentes. Se desarrolla el algoritmo de separación de palabras en morfemas a base de la metodología.
Enero 2007 Marzo 2007
2 15 Implementación de los algoritmos de detección de estructura morfémica
Se escribe el código que implementa la versión definitiva del algoritmo en C++ (con interfaz del usuario, interacciones con bases de datos, y salida estructurada con varios formatos).
Marzo 2007 Mayo 2007
3 10 Preparación de las publicaciones y reportes
Se preparan las publicaciones y reportes
Mayo 2007 Diciembre 2007
4 15 Experimentos con una cantidad bastante grande de palabras para el español
Se usan los datos de entrada generadas durante primer año de proyecto y se aplica el algoritmo desarrollado, tanto usando todas las formas, como usando solamente las entradas léxicas. Se investiga influencia de varios parámetros del algoritmo a los resultados.
Junio 2007 Julio 2007
5 20 Evaluación semiautomática de los resultados de experimentos para el español
Se desarrolla el software para la evaluación semiautomática de los resultados de detección de la estructura morfémica de palabras, incluyendo el módulo de presentación de resultados,
Se hace comparación manual de los datos y comparación automática con los datos de entrenamiento.
Se detectan los modelos de derivación de palabras haciendo diferentes agrupamientos de los resultados de división.
S
Julio 2007 Octubre 2007
6 5 Pruebas con algunas cantidades moderadas de palabras para inglés
Se compila un corpus pequeño para el idioma inglés.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Septiembre 2007 Octubre 2007
7 5 Pruebas con algunas cantidades moderadas de palabras para maya
Se compila un corpus pequeño para el idioma maya.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Octubre 2007 Noviembre 2007
8 5 Pruebas con algunas cantidades moderadas de palabras para turco
Se compila un corpus pequeño para el idioma turco.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007 Diciembre 2007
9 5 Pruebas con algunas cantidades moderadas de palabras para ruso
Se compila un corpus pequeño para el idioma ruso.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007 Diciembre 2007
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  1. Cartuchos de impreresión: 4 * 1,000 = 4,000
2. Partes de computadoras (memoria adicional, discos duros, teclados, etc.) 2,500
Discos DVD-ROM gravables de 8 GB (30 piezas x 100 pesos c/u)3,000
9500   
3000  Mantenimiento de equipo. 2,000
Estancia de trabajo en la Universidad de Valencia (Dr. P. Rosso) donde se hacen los trabajos sobre los métodos de de aprendizaje automático. 10,000
Participación de los integrantes de proyecto en un congreso nacional. 6,000
18000   
4000      
5000      
7000      
Total:  $ 27500