FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACIÓN
PROYECTO INDIVIDUAL
X
CORTO PLAZO
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
X
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROYECTO DE INICIACIÓN
PROYECTO CON IMPACTO CyT
Información General del Proyecto de Investigación
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Sección. División o Departamento
Registro asignado por la SIP: 20071579
Registro Anterior 20060735
Porcentaje de avance: 50
Datos del director(a) del Proyecto de investigación:
Sidorov
-
Grigori
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado académico: Doctorado
Horas de nombramiento: 40
RFC: SIGR651028
CURP: SIXG651028HNEDXR09
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Teléfono oficina (Ext): 56518
Correo electrónico
Teléfono particular: 5591887293
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agrícolas
Ciencias Médicas
Humanidades
Educación
Clasificación CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigación:
Básica
X
Aplicada
Autoequipamiento
Desarrollo Tecnológico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Objetivo de desarrollo sostenible: ---
Red a la que pertenece el proyecto: ---
¿A que tipo de investigación pertenece el proyecto:
Investigación científica
investigación tecnológica
Posgrado
X
¿A que tipo de avance contribuye el proyecto: ---
Scopus: ---
Orcid: ---
Grigori Sidorov -
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve,
conciso y representativo del tema central de investigación
La presentación deberá hacerse
de acuerdo a la siguiente estructura:
1. Descripción del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
1
Congresos
0
2
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
1
0
Medio
Superior
Posgrado
Tesistas
0
0
1
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 2
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 3
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribución
del presupuesto solicitado (anexar): honorarios (sólo centros
foráneos), materiales y suministros, servicios generales
y equipamiento (anexar cotización)
3.1 ¿Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigación?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
Número
Nombre
Actividad específica a desarrollar
1
Grigori Sidorov -
Director del proyecto
2
Alexander Gelbukh
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con algunas cantidades moderadas de palabras para otros idiomas: inglés. (Tiene mucha experiencia en el análisis morfológico de varios idiomas y procesamiento automático de los corpus)
3
Igor Bolshakov
Consultas sobre los métodos de aprendizaje automático (Tiene mucha experiencia en aplicación de los métodos aprendizaje automático). Consultas lingüísticas sobre idiomas diferentes. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso.
4.2 Alumnos participantes
Número
Nombre
Status*
Actividad específica a desarrollar
1
Jose Ernesto Gomez Balderas
TS
Se investigo aplciacion de otros tipos de aprendizaje automatico a la tarea de division de palabras, basicamente, redes neuronales.
2
Diego Lara Reyes
PF
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con cantidades grandes de palabras para el español. Evaluación semiautomática de los resultados de experimentos para el español.
3
Diego Lara Reyes
TS
La tesis es parte sustancial del proyecto.
Ya se solicito el examen de puerta cerrada.
4
Analhy Ochoa Vargues
PF
Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso. Evaluación semiautomática de los resultados de experimentos para el español.
5
Obdulia Pichardo Lagunas
PF
Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: maya. Evaluación semiautomática de los resultados de experimentos para el español.
Desarrollo de la metodología y algoritmos de detección de estructura morfémica Se desarrolla la metodología en su versión definitiva dependiendo de varios parámetros morfológicos existentes en idiomas diferentes. Se desarrolla el algoritmo de separación de palabras en morfemas a base de la metodología.
Enero 2007
Marzo 2007
2
15
Implementación de los algoritmos de detección de estructura morfémica Se escribe el código que implementa la versión definitiva del algoritmo en C++ (con interfaz del usuario, interacciones con bases de datos, y salida estructurada con varios formatos).
Marzo 2007
Mayo 2007
3
10
Preparación de las publicaciones y reportes Se preparan las publicaciones y reportes
Mayo 2007
Diciembre 2007
4
15
Experimentos con una cantidad bastante grande de palabras para el español Se usan los datos de entrada generadas durante primer año de proyecto y se aplica el algoritmo desarrollado, tanto usando todas las formas, como usando solamente las entradas léxicas. Se investiga influencia de varios parámetros del algoritmo a los resultados.
Junio 2007
Julio 2007
5
20
Evaluación semiautomática de los resultados de experimentos para el español Se desarrolla el software para la evaluación semiautomática de los resultados de detección de la estructura morfémica de palabras, incluyendo el módulo de presentación de resultados,
Se hace comparación manual de los datos y comparación automática con los datos de entrenamiento.
Se detectan los modelos de derivación de palabras haciendo diferentes agrupamientos de los resultados de división.
S
Julio 2007
Octubre 2007
6
5
Pruebas con algunas cantidades moderadas de palabras para inglés Se compila un corpus pequeño para el idioma inglés.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Septiembre 2007
Octubre 2007
7
5
Pruebas con algunas cantidades moderadas de palabras para maya Se compila un corpus pequeño para el idioma maya.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Octubre 2007
Noviembre 2007
8
5
Pruebas con algunas cantidades moderadas de palabras para turco Se compila un corpus pequeño para el idioma turco.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007
Diciembre 2007
9
5
Pruebas con algunas cantidades moderadas de palabras para ruso Se compila un corpus pequeño para el idioma ruso.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007
Diciembre 2007
Porcentaje:
100 %
Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado
Capítulo
Descripción / Concepto
Total (Pesos)
2000
1. Cartuchos de impreresión: 4 * 1,000 = 4,000
2. Partes de computadoras (memoria adicional, discos duros, teclados, etc.) 2,500
Discos DVD-ROM gravables de 8 GB (30 piezas x 100 pesos c/u)3,000
9500
3000
Mantenimiento de equipo. 2,000
Estancia de trabajo en la Universidad de Valencia (Dr. P. Rosso) donde se hacen los trabajos sobre los métodos de de aprendizaje automático. 10,000
Participación de los integrantes de proyecto en un congreso nacional. 6,000