FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20031715
Datos del director(a) del Proyecto de investigaci�n:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56544
Correo electrónico
Tel�fono particular: 55-1810-4587
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
1
Congresos
0
3
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
2
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
3
Practicantes Profesionales
0
0
2
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Igor Bolshakov Mironova
Consultoría en las cuestiones del uso, o en su caso del desarrollo, del diccionario de combinaciones de palabras (desarrollado en el marco del proyecto liderado por él)
3
Grigori Sidorov -
La coordinación del desarrollo de los algoritmos principales de alto nivel. Integración del sistema con el módulo de la resolución de la ambigüedad de sentidos de palabras (desarrollado en el marco del proyecto liderado por él). La coordinación de la preparación de los artículos derivados del proyecto.
4
Mikhail Alexandrov Aronovich
Consultoría en las cuestiones del uso, o en su caso del desarrollo, del diccionario de combinaciones de palabras específico para el dominio temático. Integración con el módulo del manejo de tal diccionario (desarrollado en el marco del proyecto liderado por él)
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
Juan (estudiante del Verano Cientif de la AMC)
PP
Actividades de programación y de lexicografía relacionadas con el Proyecto.
2
Hiram Calvo Castro
PF
Investigación sobre la estructura general del texto en español y sobre todo del diálogo hombre-máquina. Detección de los patrones principales del uso de pronombres, sinónimos y palabras semánticamente relacionadas para la expresión de la correferencia en las figuras discursivas usadas en diferentes
3
Hiram Calvo Castro
TS
Investigación sobre la estructura general del texto en español y sobre todo del diálogo hombre-máquina. Detección de los patrones principales del uso de pronombres, sinónimos y palabras semánticamente relacionadas para la expresión de la correferencia en las figuras discursivas usadas en diferentes
4
Grizel Gonzales
PP
Varias actividades de programación relacionadas con el presente Proyecto
5
Tania Lugo García
TS
Programación del manejo de la base de datos que se usará en el sistema, sobre todo para el manejo de los diccionarios. Participación en el desarrollo de los diccionarios necesarios, sobre todo el diccionario de las combinaciones de palabras. La preparación de los artículos para difundir los resultad
6
Raúl Morales Carrasco
PF
Desarrollo de las bases teóricas del método. Desarrollo de los métodos específicos de la detección de correferencia basados en la sinonimia, relaciones semánticas y otros tipos de relaciones. Conversión y compilación de los diccionarios
7
Raúl Morales Carrasco
TS
Desarrollo de las bases teóricas del método. Desarrollo de los métodos específicos de la detección de correferencia basados en la sinonimia, relaciones semánticas y otros tipos de relaciones. Conversión y compilación de los diccionarios
8
Gabriela Rivera Loza
TS
Participaciуn en la investigaciуn de la utilidad de los diccionarios semбnticos y explicativos para el mйtodo. La investigaciуn de la estructura de tales diccionarios. Participaciуn en su conversiуn en el formato que se usarб en el sistema. Programaci&
9
Kwangcheol Shin
TS
Desarrollo de los métodos de clasificación de textos usados en el Proyecto (en las partes que no requieren el dominio del lenguaje español).
10
José Angel Vera Félix
PF
Programación de las utilerías necesarias el manejo de los textos y los diccionarios. Participación en el desarrollo del método basado en sinónimos y en las relaciones semánticas.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
10
Abril 2003 - mayo 2003: Investigación en literatura existente (Nota: Debido a un error en el programa de captura por Internet no fue posible capturar las fechas en los campos correspondientes; las indico aquí.) Componer un panorama de los resultados y métodos existentes para el español y otros lenguajes, sobre todo, inglés y japonés
Abril 2003
Mayo 2003
2
10
Mayo 2003: Desarrollo del algoritmo principal Formular los bases para la organización de trabajo de los diferentes módulos del sistema, incluido el orden relativo de su funcionamiento
Mayo 2003
Mayo 2003
3
15
Mayo 2003 - febrero 2004: Difusión de los resultados Preparar los artículos y las tesis derivados de los resultados del proyecto, así como difundir los resultados del proyecto en los congresos nacionales e internacionales
Mayo 2003
Febrero 2004
4
5
Junio 2003: Desarrollo del algoritmo basado en sinonimia Desarrollar el módulo del sistema que detecte la posible correferencia de las palabras basándose en un diccionario de sinónimos
Junio 2003
Junio 2003
5
5
Julio 2003: Desarrollo del algoritmo basado en otras relaciones semánticas Desarrollar el módulo del sistema que detecte la posible correferencia de las palabras basándose en un diccionario de relaciones semánticas entre las palabras, sobre todo la relación entero-parte
Julio 2003
Julio 2003
6
5
Agosto 2003: Desarrollo del algoritmo basado en las combinaciones de palabras Desarrollar el módulo del sistema que detecte la posible correferencia de las palabras basándose en un diccionario de combinaciones de palabras existentes en el español
Agosto 2003
Agosto 2003
7
5
Septiembre 2003: Adecuación del algoritmo para un dominio específico Implementar la posibilidad de ajustar los diccionarios a un dominio temático específico
Septiembre 2003
Septiembre 2003
8
5
Octubre 2003: Adecuación del algoritmo para la desambiguación de sentidos de pal Implementar la posibilidad de ajustar el funcionamiento del algoritmo a las ventajas que proporciona un módulo de desambiguación de sentidos de palabras
Octubre 2003
Octubre 2003
9
5
Octubre 2003 - noviembre 2003: Implementación de algoritmos adicionales Detectar y en su caso implementar de algoritmos basados en otras propiedades de palabras españolas
Octubre 2003
Noviembre 2003
10
10
Diciembre 2003: Preparación de diccionarios Convertir los diccionarios existentes en el formato necesario para el funcionamiento del sistema, así como en el caso necesario extraer automática o semiautomáticamente los diccionarios necesarios de los corpus grandes de textos
Diciembre 2003
Diciembre 2003
11
10
Enero 2004: Diseño e implementación de la interfaz de usuario Diseñar los principios de la interfaz de usuario necesaria para el sistema e implementar el software correspondiente
Enero 2004
Enero 2004
12
10
Enero 2004 - febrero 2004: Evaluación, pruebas y ajustes Depurar el algoritmo y evaluar los resultados obtenidos en cuanto a su precisión y el porcentaje de recuperación (recall)
Enero 2004
Febrero 2004
13
5
Febrero 2004: Documentación de los resultados Preparar el informe técnico final del proyecto
Febrero 2004
Febrero 2004
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Los siguientes materiales y componentes se necesitan para el funcionamiento adecuado del equipo de trabajo y para la actualización de algunos equipos de cómputo que se usarán para el proyecto: libros ($2000), discos CD y/o DVD gravables para guardar los respaldos de los diccionarios grandes y textos procesados, $10 x 400 ($4000), tarjetas de memoria para la actualización de las computadoras viejas ($2000), 2 tarjetas SCSI-3 para el dispositivo de respaldo ($3000), 2 dispositivos móviles de memoria flash para el intercambio rápido de datos ($1800), 2 discos duros grandes, de 120 MB, para el procesamiento masivo de datos ($5000), pantalla mejorada de la tecnología LCD, la marca a especificar ($12000).
29800
3000
Se planea una estancia corta (aprox. 1 semana) de investigación con uno de los grupos principales que trabajan en el desarrollo de los métodos correspondientes, según las necesidades del trabajo sobre los módulos específicos del proyecto donde más habrá la necesidad de intercambio de información. Se seleccionará uno de los grupos liderados por el Dr. Mitkov (Inglaterra), Dr. Palomar (España), Dr. Murata (Japón), o Dra. Strube de Lima (Brasil). Se espera obtener una parte (hasta una mitad de los gastos totales) de la red internacional RITOS-2.
9000
4000
5000
Se planea adquirir una computadora con las características modernas comunes hoy en día en el mercado (2.2 o más GHz, 120 o más GB, 1024 o más KB, pantalla LCD marca a especificar) para el trabajo del líder del proyecto. Las características necesarias se determinan según la necesidad de procesamiento masivo de grandes volúmenes de textos en español, con el fin de la obtención de las estadísticas adecuadas. Se espera el precio de la unidad aprox. $15000. También, se planea adquirir un escáner con características estándares (pero de alta velocidad) para escanear algunos textos que tenemos sólo en forma de papel, con el fin de hacer las pruebas del algoritmo en estos textos (de los géneros y dominios temáticos específicos), $5000.