FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
X
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20061299
Datos del director(a) del Proyecto de investigaci�n:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56544
Correo electrónico
Tel�fono particular: 55-1810-4587
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
4
Congresos
0
2
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
2
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
2
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Igor Bolshakov Mironova
Estudios en los métodos estadísticos y de aprendizaje automático para el análisis de diccionarios y para la desambiguación de sentido de palabras en el texto. Consultoría general en el proyecto. Por su educación es especialista en las estadísticas, con una experiencia de 30 años de trabajo en el análisis de texto. Tiene SNI III.
3
Grigori Sidorov -
Desarrollo de los principios lingüísticos para el procesamiento de los diccionarios. Nótese que por su educación es lingüísta, además de tener una experiencia de 15 años en programación. Realización de varios algoritmos de análisis de diccionarios. Tiene SNI II.
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
Hiram Calvo Castro
PF
Realización de las heurísticas para la búsqueda de las dominantes en los synsets del diccionario.
2
Hiram Calvo Castro
TS
Estudios en la literatura especializada de lexicografía. Formulación y verificación de las heurísticas básicas.
3
Steve Legrand -
PF
Investigación en los métodos de desambigüación de sentido de palabras, comparación de los métodos existentes y selección de los mejores. Experimentación con el corpus, evaluación de los resultados y elaboración de las implicaciones teóricas a ser realizadas en la segunda etapa del proyecto.
4
Steve Legrand --
TS
Investigación en los métodos de desambigüación de sentido de palabras, comparación de los métodos existentes y selección de los mejores. Experimentación con el corpus, evaluación de los resultados y elaboración de las implicaciones teóricas a ser realizadas en la segunda etapa del proyecto.
5
Javier Tejada Cárcamo
PF
Desarrollo y realización de los métodos estadísticos para la resolución de sentido de palabras empleando los diccionarios.
6
Javier Tejada Cárcamo
TS
Conversión de los diccionarios en la forma de una base de datos. Implementación de los algoritmos, incluidos los algoritmos para la desambiguación del sentido de las palabras.
7
Sulema Torres Ramos
PF
Pre-procesamiento de los diccionarios y realización de herramientas auxiliares para el manejo de los diccionarios. Procesamiento de corpus de textos y realización de pruebas.
8
Sulema Torres Ramos
TS
Procesamiento de los diccionarios. Desarrollo de los algoritmos básicos. Compilación de un corpus marcado sintácticamente.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
8
Estudios en la literatura especializada de lexicografía Se realizarán los estudios en la literatura lingüísticia especializada sobre los principios de construcción de diccionarios, para la elaboración de las propuestas para las heurísticas.
Enero 2006
Enero 2006
2
8
Preprocesamiento de los diccionarios Los diccionarios disponibles están en el formato de libro listo para impresión, pero no para su procesamiento computacional. Se depurará y unificará su formato, para que se puedan clasificar sus campos y para que se pueda convertir su texto en una base de datos.
Febrero 2006
Febrero 2006
3
8
Conversión de los diccionarios en la forma de una base de datos Los diccionarios disponibles, tras su unificación y depuración, se convertirán en la forma de una base de datos apropiada para la aplicación de los algoritmos computacionales.
Marzo 2006
Marzo 2006
4
8
Formulación y verificación de las heurísticas básicas para la determinación de l Se formularán en forma teórica las propuestas para las heurísticas para la determinación de las dominantes. Estas heurísticas se verificarán manualmente, con los diccionarios en papel y con lápiz, para seleccionar las más prometedoras.
Abril 2006
Abril 2006
5
10
Desarrollo de los algoritmos básicos para la determinación de las dominantes Las heurísticas formuladas y seleccionadas en la etapa anterior, serán conficiadas como algoritmos precisos, con los casos de procesamiento específicos para diferentes formatos de entrada del diccionario.
Mayo 2006
Mayo 2006
6
8
Implementación de los algoritmos básicos para la determinación de las dominantes Los algoritmos formulados en la etapa anterior, serán realizados en forma de software en un lenguaje de programación, el cual será depurado y documentado debidamente.
Junio 2006
Junio 2006
7
8
Aplicación de los algoritmos desarrollados a la base de datos y su depuración en El software desarrollado en la etapa anterior será aplicado a los datos reales de los diccionarios, obteniéndose así la primera versión de la base de datos de synsets con las dominantes marcadas.
Julio 2006
Julio 2006
8
10
Evaluación de los resultados y elaboración de las propuestas para nuevas heuríst Los resultados de la aplicación de los algoritmos, según lo especificado en el punto anterior, serán evaluados por medio de comparación manual con los resultados esperados según la teoría lingüística.
Agosto 2006
Agosto 2006
9
8
Ajustes a los algoritmos desarrollados y preparación de la versión final de la p Tras la evaluación de los resultados, se realizarán los ajustes necesarios para mejorar la calidad de los resultados, se resolverán problemas y posibles errores, se aplicarán de nuevo los algoritmos a los datos de los diccionarios, y finalmente se preparará la primera versión de la base de datos de los synsets. Ya que sólo se aplican en esta etapa las heurísticas básicas, esta primera versión se a
Septiembre 2006
Septiembre 2006
10
8
Aplicación de prueba de los resultados de la primera etapa para la desambiguació La base obtenida se usará en el módulo de la resolución de ambigüedad de sentido de palabras, especialmente desarrollado para esta tarea. Se obtendrá un corpus de texto de prueba con los sentidos resueltos con el método desarrollado, en su primera versión.
Octubre 2006
Octubre 2006
11
8
Evaluación de los resultados obtenidos Se evalurán los resultados de la desambiguación obtenidos en el punto anterior. La evaluación se fectuará contra los corpus existentes con los sentidos correctos ya marcados, así que se puede evaluar el porcentaje de aciertos.
Noviembre 2006
Noviembre 2006
12
8
Preparación de informes y publicaciones Al terminarse el desarrollo de los algoritmos y la evaluación de los resultados de la primera etapa del desarrollo del Proyecto, se documentarán los estudios correspondientes en los informes y las publicaciones derivadas del Proyecto.
Diciembre 2006
Diciembre 2006
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Bases de datos y recursos informáticos necesarios para el proyecto, tales como diccionarios, corpus de texto, software para su procesamiento. Estos datos pueden ser costosos, pero su disponibilidad mejorará los resultados del proyecto. Nota: El proyecto se puede realizar con los datos y software disponibles en el Laboratorio, pero la disponibilidad de mejores bases y software mejorará sus resultados.
Compra de libros y/o revistas especializados en el área.
Software general, tal como las actualizaciones de los sistemas operativos, paquetería, programas de correo y comunicación, controladores, antivirus, otros programas para el mantenimiento de la PC, programas diversos.
CDs y DVDs gravables y re-gravables, para los respaldos regulares, transportación de grandes volúmenes de datos y guardar los resultados.
Papel, para impresión de borradores, artículos, informes, etc.; así como para la distribución masiva de los resultados del proyecto a los asistentes de congresos y seminarios.
Cartuchos para las impresores láser.
Materiales de oficina diversos, tales como plumas, plumones, tijeras, etc.
Partes para reparación menor, actualización y expansión del equipo de cómputo, tales como discos duros grandes, adaptadores de red, memorias, unidades de grabación de CD y DVD, dispositivos diversos, etc.
Nota: Se especifícan los gastos por un año de operación. Según entendí las bases, los gastos para otros años se solicitarán junto con la prórroga del Proyecto.
28000
3000
Gastos de transporte y estancia de los investigadores y estudiantes para el intercambio de visitas de colaboración y participación en reuniones de trabajo con colegas tanto dentro del país como en el extranjero. La comunicación y movilidad de los investigadores y sobre todo los estudiantes es un factor muy importante para las actividades de investigación y aprendizaje.
Gastos de transporte y estancia para presentar los resultados del proyecto en plática invitadas.
Gastos para la impresión de los informes y/o libros derivados de las actividades del proyecto.
Gastos para engargolados y copias de los materiales impresos necesarios.
Nota: Se especifícan los gastos por un año de operación. Según entendí las bases, los gastos para otros años se solicitarán junto con la prórroga del Proyecto.