FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
X
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20071579
Registro Anterior 20060735
Porcentaje de avance: 50
Datos del director(a) del Proyecto de investigaci�n:
Sidorov
-
Grigori
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: SIGR651028
CURP: SIXG651028HNEDXR09
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56518
Correo electrónico
Tel�fono particular: 5591887293
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Grigori Sidorov -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
1
Congresos
0
2
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
1
0
Medio
Superior
Posgrado
Tesistas
0
0
1
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Grigori Sidorov -
Director del proyecto
2
Alexander Gelbukh
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con algunas cantidades moderadas de palabras para otros idiomas: inglés. (Tiene mucha experiencia en el análisis morfológico de varios idiomas y procesamiento automático de los corpus)
3
Igor Bolshakov
Consultas sobre los métodos de aprendizaje automático (Tiene mucha experiencia en aplicación de los métodos aprendizaje automático). Consultas lingüísticas sobre idiomas diferentes. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso.
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
Jose Ernesto Gomez Balderas
TS
Se investigo aplciacion de otros tipos de aprendizaje automatico a la tarea de division de palabras, basicamente, redes neuronales.
2
Diego Lara Reyes
PF
Desarrollo de la metodología y algoritmos de detección de estructura morfémica (etapa de desarrollo). Pruebas con cantidades grandes de palabras para el español. Evaluación semiautomática de los resultados de experimentos para el español.
3
Diego Lara Reyes
TS
La tesis es parte sustancial del proyecto.
Ya se solicito el examen de puerta cerrada.
4
Analhy Ochoa Vargues
PF
Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: ruso. Evaluación semiautomática de los resultados de experimentos para el español.
5
Obdulia Pichardo Lagunas
PF
Implementación de los algoritmos de detección de estructura morfémica. Pruebas con algunas cantidades moderadas de palabras para otros idiomas: maya. Evaluación semiautomática de los resultados de experimentos para el español.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
20
Desarrollo de la metodología y algoritmos de detección de estructura morfémica Se desarrolla la metodología en su versión definitiva dependiendo de varios parámetros morfológicos existentes en idiomas diferentes. Se desarrolla el algoritmo de separación de palabras en morfemas a base de la metodología.
Enero 2007
Marzo 2007
2
15
Implementación de los algoritmos de detección de estructura morfémica Se escribe el código que implementa la versión definitiva del algoritmo en C++ (con interfaz del usuario, interacciones con bases de datos, y salida estructurada con varios formatos).
Marzo 2007
Mayo 2007
3
10
Preparación de las publicaciones y reportes Se preparan las publicaciones y reportes
Mayo 2007
Diciembre 2007
4
15
Experimentos con una cantidad bastante grande de palabras para el español Se usan los datos de entrada generadas durante primer año de proyecto y se aplica el algoritmo desarrollado, tanto usando todas las formas, como usando solamente las entradas léxicas. Se investiga influencia de varios parámetros del algoritmo a los resultados.
Junio 2007
Julio 2007
5
20
Evaluación semiautomática de los resultados de experimentos para el español Se desarrolla el software para la evaluación semiautomática de los resultados de detección de la estructura morfémica de palabras, incluyendo el módulo de presentación de resultados,
Se hace comparación manual de los datos y comparación automática con los datos de entrenamiento.
Se detectan los modelos de derivación de palabras haciendo diferentes agrupamientos de los resultados de división.
S
Julio 2007
Octubre 2007
6
5
Pruebas con algunas cantidades moderadas de palabras para inglés Se compila un corpus pequeño para el idioma inglés.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Septiembre 2007
Octubre 2007
7
5
Pruebas con algunas cantidades moderadas de palabras para maya Se compila un corpus pequeño para el idioma maya.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Octubre 2007
Noviembre 2007
8
5
Pruebas con algunas cantidades moderadas de palabras para turco Se compila un corpus pequeño para el idioma turco.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007
Diciembre 2007
9
5
Pruebas con algunas cantidades moderadas de palabras para ruso Se compila un corpus pequeño para el idioma ruso.
Se hace la traducción y la separación manual de las palabras en morfemas.
Se aplica el algoritmo de detección de la estructura morfémica.
Se investiga influencia de varios parámetros del algoritmo a los resultados.
Se evalúan los resultados de división usando el software desarrollado para el español.
Noviembre 2007
Diciembre 2007
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
1. Cartuchos de impreresión: 4 * 1,000 = 4,000
2. Partes de computadoras (memoria adicional, discos duros, teclados, etc.) 2,500
Discos DVD-ROM gravables de 8 GB (30 piezas x 100 pesos c/u)3,000
9500
3000
Mantenimiento de equipo. 2,000
Estancia de trabajo en la Universidad de Valencia (Dr. P. Rosso) donde se hacen los trabajos sobre los métodos de de aprendizaje automático. 10,000
Participación de los integrantes de proyecto en un congreso nacional. 6,000