FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Tecnologías de Lenguaje Natural
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20051184
Datos del director(a) del Proyecto de investigaci�n:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56544
Correo electrónico
Tel�fono particular: 55-1810-4587
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Otros
Subsector: Otros
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
1
2
Congresos
1
1
Seminiarios
0
0
Cursos
0
0
Manuales
1
0
Libros
1
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
1
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
3
Practicantes Profesionales
0
0
3
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
2
Otros (especificar)
2
C
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Maosong Sun
Diseño y evaluación de los algoritmos relacionados con la clasificación estadística de datos.
3
Igor Bolshakov Mironova
Investigación teórica y diseño de algoritmos en la colección de las colocaciones.
4
Grigori Sidorov
Diseño de la implementación del prototipo del laboratorio; dirección de las actividades de los estudiantes relacionadas con la implementación de los algoritmos.
5
Ted Pedersen
Diseño y evaluación de las bases teóricas de la extracción de datos de los corpus; diseño de las medidas de semejanza de las palabras usando recursos léxicos grandes.
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
Macario Hernández Cruz
TS
Diseño e implementación de los algortmos de conversión de las estructuras sintácticas a las estructuras conceptuales para la métrica borrosa de comparación de oraciones.
2
Tania Lugo García
TS
Construcción del diccionario de colocaciones a través del algoritmo iterativo de la desambiguación sintáctica.
3
Valentina Muñoz Porras
TS
Desarrolló el desambiguador de la categoría gramatical, usado para la compilación de la base de datos de combinaciones de palabras.
4
Vicente Nonell Cubells
PF
Diseño de algoritmos de comparación de las palabras usando el diccionario WordNet. Diseño de las medidas de comparación para los algoritmos de agrupamiento.
5
Javier Tejada Cárcamo
PF
Diseño e implementación de los algoritmos de procesamiento estadístico de corpus.
6
Javier Tejada Cárcamo
TS
Implementación de los algoritmos de la extracción de colocaciones de los corpus y la ponderación de las colocaciones.
7
Sulema Torres Ramos
PF
Implementación de los algoritmos de comparación de diferentes métricas de semejanza. Interpretación estadística de los resultados y selección o en su caso construcción de la mejor métrica.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
5
Investigación teórica Investigación teórica de los métodos existentes del estado del arte en la desambiguación de sentidos de palabras.
Febrero 2005
Febrero 2005
2
5
Compilación del corpus Compilación de un corpus balanceado de textos en español, con la representatividad léxica y sintáctica, para los experimentos estadísticos posteriores, su preprocesamiento y conversión en el formato apropiado (de una base de datos lingüística).
Marzo 2005
Marzo 2005
3
15
Algoritmos para la extracción de patrones Diseño e implementación de los algoritmos para la extracción de patrones de combinaciones de palabras del corpus de textos en español.
Abril 2005
Abril 2005
4
15
Base de combinaciones de palabras Compilación de una base de combinaciones de palabras en español, con la anotación de las relaciones sintácticas correspondientes.
Mayo 2005
Mayo 2005
5
10
Detección de las combinaciones Experimentación con la detección de las combinaciones significativas en los textos, con el propósito de la desambiguación de sentidos de palabras.
Junio 2005
Junio 2005
6
10
Listas de sustitución de palabras Diseño e implementación de los algoritmos para la construcción de las listas de sustitución de las palabras en un contexto dado.
Julio 2005
Julio 2005
7
5
Estudio estadístico y clasificación de las listas Diseño e implementación de los métodos del estudio estadístico y clasificación de las listas obtenidas.
Agosto 2005
Agosto 2005
8
10
Evaluación y publicaciones Evaluación de los resultados obtenidos y preparación de las publicaciones.
Agosto 2005
Enero 2006
9
5
Estudio comparativo de las métricas de similitud Estudio comparativo de las métricas de similitud entre los sentidos de palabras, con el fin de la selección automática del significado más apropiado según la lista construida.
Septiembre 2005
Septiembre 2005
10
5
Aprendizaje automático para la construcción y ponderación de las métricas Estudio de los métodos de aprendizaje automático para la construcción y ponderación de las métricas de similitud de sentidos.
Octubre 2005
Octubre 2005
11
5
Discriminación de los sentidos de palabras Aplicación de los métodos estadísticos para la discriminación de los sentidos de palabras, a la tarea de la desambiguación de los sentidos.
Noviembre 2005
Noviembre 2005
12
10
Implementación de un sistema de laboratorio Diseño e implementación de un sistema de laboratorio para la desambiguación de los sentidos de palabras en el contexto con los métodos propuestos.
Diciembre 2005
Diciembre 2005
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Libros de casas editoriales mexicanas y extranjeras, memorias de congresos internacionales.
Otros artículos de papelería e insumos.
Papel y otros gastos para edición del libro derivado de este Proyecto según lo previsto en los resultados entregables.
19000
3000
Pasajes y viáticos para dos visitas a las universidades con las cuales se colaborará en este Proyecto. Se efectuarán las visitas a las siguientes universidades (o estancias equivalentes, dependiendo de la disponibilidad de tiempo de nuestros colaboradores y de las necesidades del Proyecto):
? Una estancia corta de investigación en la U. de Minnesota (EE.UU.), con el Dr. Ted Pedersen, para colaboración.
? Una estancia corta de investigación en la U. TsingHua (Peking, China), con el Dr. Maosong Sun, para colaboración.