FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
X
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20071753
Registro Anterior 20061299
Porcentaje de avance: 50
Datos del director(a) del Proyecto de investigaci�n:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56544
Correo electrónico
Tel�fono particular: 55-1810-4587
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
4
Congresos
0
2
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
2
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
2
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Grigori Sidorov -
Desarrollo de los principios lingüísticos para el procesamiento de los diccionarios. Nótese que por su educación es lingüísta, además de tener una experiencia de 15 años en programación. Realización de varios algoritmos de análisis de diccionarios. Tiene SNI II.
3
Igor Bolshakov Mironova
Estudios en los métodos estadísticos y de aprendizaje automático para el análisis de diccionarios y para la desambiguación de sentido de palabras en el texto. Consultoría general en el proyecto. Por su educación es especialista en las estadísticas, con una experiencia de 30 años de trabajo en el análisis de texto. Tiene SNI III.
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
Macario Hernández Cruz
TS
Análisis semántico del texto en español
2
Yulia Ledeneva -
PF
Realización y evaluación de las heurísticas para la búsqueda de las dominantes en los synsets del diccionario.
3
Steve Legrand -
TS
Investigación en los métodos de desambigüación de sentido de palabras, comparación de los desultados obtenidos con los métodos existentes.
4
Tania Lugo García
TS
Construcción de la base de datos estadística para el español
5
Javier Tejada Cárcamo
PF
Desarrollo y realización de los métodos estadísticos para la resolución de sentido de palabras en los textos y en las glosas de WordNet.
6
Sulema Torres Ramos
PF
Realización de herramientas para el manejo de los diccionarios; conversión de los diccionarios en el formato de bases de datos. Realización de pruebas.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
10
Resolución de sentidos de palabras en las glosas de WordNet Implementar el método de resolución de sentidos de palabras en el diccionario WordNet. El método consistirá en la selección del sentido más próximo, en una de las medidas en WordNet, tal como Hirst-StOnge.
Enero 2007
Enero 2007
2
10
Evaluación de la resolución de sentidos en las glosas de WordNet Evaluar el desempeño del punto anterior comparando sus resultados con el diccionario XWN disponible para el inglés. Para eso, 1) implementar el método para inglés, 2) convertir el diccionario XWN en formato de una base de datos, 3) comparar. Eso nos dará una idea aproximada del desempeño del método para el español.
Febrero 2007
Marzo 2007
3
10
Implementación y evaluación de heurísticas para seleccionar sinónimos dominantes Se implementarán las herísticas para la determinación del sinónimo dominante. Luego, se elaborará un corpus con marcaje manual. Luego, los resultados obtenidos del algoritmo se compararán con tal corpus.
Abril 2007
Abril 2007
4
10
Estudio de diferentes medidas de importancia de sentidos Se estudiarán e implementarán diferentes medidas de importancia apriori de los sinsets. Se efectuará una evaluación preliminar por medio de análisis manual.
Mayo 2007
Mayo 2007
5
8
Implementación de WSD con sólo medidas de importancia Se aplicarán los resultados del punto anterior a la construcción de un sistema de desambiguación de sentidos (WSD). En caso de éxito, resultará en un nuevo método para la WSD.
Junio 2007
Junio 2007
6
8
Implementación de WSD con sólo los sinónimos dominantes Se aplicarán los resultados del punto 3 (determinación de los sinónimos dominantes) a la construcción de un sistema de desambiguación de sentidos (WSD). En caso de éxito, resultará en un nuevo método para la WSD.
Julio 2007
Julio 2007
7
8
Implementación de WSD con la información combinada Se combinará la información de los dos pasos anteriores, para construir un sistema para WSD mejorado. Se espera que los resultados sean superiores a los dos puntos anteriores.
Agosto 2007
Agosto 2007
8
10
Publicaciones e informes Generar publicaciones e informes para la difusión de los resultados obtenidos. Preparar las tesis.
Agosto 2007
Diciembre 2007
9
8
Implementación de otros métodos de WSD para la comparación Implementar varios otros métodos de WSD, para poder comparar los resultados del método desarrollado con el desempeño de otros métodos existentes, en los mismos datos y con las mismas condiciones. Es un requisito indispensable para la publicación de los resultados.
Septiembre 2007
Septiembre 2007
10
10
Estudio del funcionamiento del método con diferentes tipos de palabras Clasificar las palambras en diferentes tipos, tales como de sentidos finos/gruesos (fine-grained vs. coarse-grained senses). Estudiar los efectos del método desarrollado en diferentes clases. Es necesario para combinar el método desarrollado con otros métodos, eligiendo el mejor método para cada tipo de palabras.
Octubre 2007
Octubre 2007
11
8
Pruebas con generación de texto Implementar un método básico para generación de texto. Aplicar el el método de generación con los sinónimos dominantes marcados. Comparar los resultados con generación con sinónimos aleatorios.
Noviembre 2007
Noviembre 2007
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Bases de datos, diccionarios, corpus de texto, software para el análisis de texto. Estos datos, especialmente los corpus, pueden ser costosos.
Libros y revistas especializados en el área.
Software general: actualizaciones de los sistemas operativos, paquetería, programas de correo y comunicación, controladores, antivirus, otros programas para el mantenimiento de la PC, programas diversos.
CDs y DVDs gravables y regravables, para los respaldos regulares y transportación y resguardo de grandes volúmenes de datos y los resultados intermedios.
Papel, para impresión de borradores, artículos, informes, etc.; así como para la distribución de los resultados del proyecto a los asistentes de congresos y seminarios.
Cartuchos para las impresores láser.
Materiales de oficina diversos, tales como plumas, plumones, tijeras, etc.
Partes para reparación menor, actualización y expansión del equipo de cómputo, tales como discos duros grandes, adaptadores de red, memorias, unidades de grabación de CD y DVD, dispositivos diversos, etc.
Nota: Se especifícan los gastos por un año de operación.
26000
3000
Gastos de transporte y estancia de los investigadores y estudiantes para el intercambio de visitas de colaboración y participación en reuniones de trabajo con colegas tanto dentro del país como en el extranjero. La comunicación y movilidad de los investigadores y sobre todo los estudiantes es un factor muy importante para las actividades de investigación y aprendizaje.
Gastos de transporte y estancia para presentar los resultados del proyecto en pláticas magistrales e invitadas.
Gastos para la impresión de los informes y/o libros derivados de las actividades del proyecto.
Gastos para engargolados y copias de los materiales impresos necesarios.
Pago de derechos por publicaión de artículos en foros o revistas de alto prestigio.
Nota: Se especifícan los gastos por un año de operación.