Protocolo para Proyectos de Investigación

FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________

		INSTITUTO POLITÉCNICO NACIONAL SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
		PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

	PROYECTO INDIVIDUAL	X		CORTO PLAZO	X
	PROYECTO EN PROGRAMA ESPECIAL
	PROYECTO DE INNOVACIÓN
	PROYECTO MULTIDISCIPLINARIO			MEDIANO PLAZO
	PROYECTO TRANSDISCIPLINARIO
	PROYECTO DE RED
	PROYECTO DE INICIACIÓN
	PROYECTO CON IMPACTO CyT

Informaci�n General del Proyecto de Investigaci�n

CIC

Laboratorio de Lenguaje Natural y Procesamiento de Texto

Escuela, Centro o Unidad

Secci�n. Divisi�n o Departamento

T�tulo

Medidas de ponderación y funciones de semejanza entre las palabras, para el procesamiento inteligente de texto, desambiguación semántica y clasificación de documentos en lenguaje natural

Registro asignado por la SIP: 20091587

Datos del director(a) del Proyecto de investigaci�n:

Gelbukh		-		Alexander
Apellido Paterno		Apellido Materno		Nombres

Tipo de plaza en el IPN: Titular C - (BASE)

Grado acad�mico: Doctorado

Horas de nombramiento: 40

RFC: GEAL620912

CURP: GEXA620912HNELXL08

SNI: III

BECAS:

COFAA IV

EDD ---

EDI IX

(Indicar nivel)

Tel�fono oficina (Ext): 56544

Correo electrónico

Tel�fono particular: 55-1810-4587

Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:

Medio Superior

Superior

Posgrado X

Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:

Ingenier�a y Tecnología	X		Ciencias Sociales
Ciencias Naturales			Ciencias Agr�colas
Ciencias M�dicas			Humanidades
Educación

Clasificaci�n CONACyT:

Sector: Sector Comunicaciones y Transportes

Subsector: Fomento a la integraci�n de servicios y acceso a las nuevas tecnolog�as de la informaci�n ��

Tipos de investigaci�n:

B�sica	X		Aplicada			Autoequipamiento
Desarrollo Tecnol�gico			Educativa

�Su proyecto aborda los siguientes temas?

Perspectiva de Género			Sustentabilidad			Ninguno

Objetivo de desarrollo sostenible: ---

Red a la que pertenece el proyecto: ---

�A que tipo de investigaci�n pertenece el proyecto:

Investigación científica		investigación tecnológica		Posgrado X
�A que tipo de avance contribuye el proyecto: ---

Scopus: ---

Orcid: ---

Alexander Gelbukh -
Director(a) del Proyecto de Investigaci�n		Vo. Bo. de la Academia o Colegio de Profesores		Nombre y firma de Director(a) de la Escuela, Centro o Unidad

Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n

La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto

1.1 Resumen

En varias aplicaciones del procesamiento de lenguaje natural, tales como la extracción automática de conocimiento de los textos en Internet, la traducción automática, la clasificación y agrupamiento de documentos textuales, etc., uno de los puntos claves de los algoritmos correspondientes es la medición cuantitativa de la semejanza semántica entre las palabras: ¿en qué medida se parece la palabra "gato" a "perro"? ¿y a "desarmador"? ¿en qué contextos se parece a una y en qué a otra?

El saber esto permite, entre otras cosas, la desambiguación semántica: "Se ponchó su llanta y tenía que usar el GATO" / "El GATO se comió al RATÓN" / "Conectó el RATÓN y el teclado a su portátil". El poder distinguir automáticamente los significados de las palabras en su contexto es indispensable para el funcionamiento correcto de los programas inteligentes de la extracción de conocimiento de los textos e interacción humano-computadora. Otra aplicación en donde es necesario medir la semejanza semántica entre las palabras y ponderar la importancia de las palabras individuales es la clasificación de documentos textuales: ¿a cuál documento de la colección o muestra de entrenamiento más parece el documento dado, por las palabras que usa?

En el proyecto se desarrollarán ciertos algoritmos inteligentes para la construcción de una base de datos de la semejanza de las palabras, junto con las aplicaciones para la desambiguación de los sentidos de las palabras (¿cuál "gato"?) y la clasificación de documentos textuales.

1.2 Objetivo general

Estudio de los algoritmos para la definición cuantitativa, en base al análisis de los textos disponibles, de la semejanza entre las palabras, así como las aplicaciones para la desambiguación de los sentidos de las palabras y la clasificación de documentos textuales.

1.3 Objetivos específicos

Una base de datos de la semejanza de las palabras, junto con los algoritmos para su formación automática en base al análisis de los textos disponibles, así como los algoritmos y programas para la desambiguación de los sentidos de las palabras y la clasificación de documentos textuales.

2. Subproductos comprometidos

	Nacional	Internacional			Nacional	Internacional
Art�culo de Divulgaci�n	0	0		Art�culo Cient�fico	0	2
Congresos	0	1		Seminiarios	0	0
Cursos	0	0		Manuales	0	0
Libros	0	1		Programa de Radio y TV	0	0
Conferencias o Ponencias	0	2

	Piloto	Laboratorio			Piloto	Laboratorio
Proceso	0	0		Prototipo	0	0
Patente	0	0		Certificado de Invenci�n	0	0
Hardware	0	0		Software	0	1

				Medio	Superior	Posgrado
Tesistas				0	0	2
Practicantes Profesionales				0	0	0
Alumnos PIFI				0	0	4
Prestante de Servicio Social				0	0
Otros (especificar)		0

2. Subproductos comprometidos a�o 2

	Nacional	Internacional			Nacional	Internacional
Art�culo de Divulgaci�n	0	0		Art�culo Cient�fico	0	0
Congresos	0	0		Seminiarios	0	0
Cursos	0	0		Manuales	0	0
Libros	0	0		Programa de Radio y TV	0	0
Conferencias o Ponencias	0	0

	Piloto	Laboratorio			Piloto	Laboratorio
Proceso	0	0		Prototipo	0	0
Patente	0	0		Certificado de Invenci�n	0	0
Hardware	0	0		Software	0	0

				Medio	Superior	Posgrado
Tesistas				0	0	0
Practicantes Profesionales				0	0	0
Alumnos PIFI				0	0	0
Prestante de Servicio Social				0	0
Otros (especificar)		0

2. Subproductos comprometidos a�o 3

	Nacional	Internacional			Nacional	Internacional
Art�culo de Divulgaci�n	0	0		Art�culo Cient�fico	0	0
Congresos	0	0		Seminiarios	0	0
Cursos	0	0		Manuales	0	0
Libros	0	0		Programa de Radio y TV	0	0
Conferencias o Ponencias	0	0

	Piloto	Laboratorio			Piloto	Laboratorio
Proceso	0	0		Prototipo	0	0
Patente	0	0		Certificado de Invenci�n	0	0
Hardware	0	0		Software	0	0

				Medio	Superior	Posgrado
Tesistas				0	0	0
Practicantes Profesionales				0	0	0
Alumnos PIFI				0	0	0
Prestante de Servicio Social				0	0
Otros (especificar)		0

3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

	3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
	No X	Si	Nombre de la convocatoria

4. Recursos humanos. Investigadores y alumnos participantes.

4.1 Investigadores participantes

N�mero	Nombre	Actividad espec�fica a desarrollar
1	Alexander Gelbukh -	Director del proyecto
2	Grigori Sidorov	Consultoría en los asuntos lingüísticos del procesamiento de lenguaje natural y el diseño de los algoritmos correspondientes.
3	Hiram Calvo Castro	Participación en el diseño de los algoritmos para la construcción de las medidas de semejanza y para la clasificación de los textos, sobre todo con la aplicación a la clasificación de las fichas bibliográficas.
4	Salvador Godoy Calder�n	Participación en el diseño de los algoritmos de clasificación, sobre todo de los con el enfoque lógico-combinatorio.

4.2 Alumnos participantes

N�mero	Nombre	Status*	Actividad espec�fica a desarrollar
1	Grettel Barcel� Alonso	TS	Desarrollo de los algoritmos de reconocimiento de patrones y correspondencias en los textos multilingües, con aplicaciones a la desambiguación de los sentidos de las palabras.
2	Horacio Alberto Garc�a Salas	TS	Desarrollo de los algoritmos de reconocimiento de patrones en las cadenas de símbolos.
3	OLGA KOLESNIKOVA -	PF	Participación en metas.
4	Olga Kolesnikova -	TS	Estudio de las propiedades semánticos de los textos útiles para su desambigüación semántica.
5	Mois�s Eduardo Lav�n Villa	TS	Desarrollo de los algoritmos complementarios para el procesamiento de los textos multilingües.
6	Alfredo L�pez Monroy	TS	Desarrollo de los algoritmos para la clasificación y búsqueda en los documentos del dominio jurídico.
7	Carlos Ignacio Res�ndiz Ju�rez	TS	Desarrollo de los algoritmos para el estudio de los significados de las palabras.
8	Miguel Angel R�os Gaona	PF	Participación en metas.
9	Miguel �ngel R�os Gaona	TS	Desarrollo de los algoritmos para la detección de la implicación semántica en el texto.
10	Javier Tejada C�rcamo	TS	Construcción de la base de datos de los valores de la semejanza semántica entre las palabras.
11	SULEMA TORRES RAMOS	PF	Participación en metas.
12	Sulema Torres Ramos	TS	Desarrollo de los algoritmos para la desambiguación semántica de los sentidos de las palabras.

* PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

5.Programaci�n de Actividades de Investigaci�n

N�mero de meta	Valor % de cada meta	Descripci�n de actividades	Mes de inicio	Mes de terminaci�n
1	10	Estudio bibliogr�fico Se efectuará un estudio bibliográfico sobre los temas principales del proyecto.	Enero 2009	Enero 2009
2	10	Dise�o de la estructura de la base de datos Se diseñará de la estructura de la base de datos principal para la organización de la información obtenida sobre la semejanza de las palabras, así como de las varias bases de datos que se usarán en diferentes tareas del proyecto.	Febrero 2009	Febrero 2009
3	10	Construcci�n de la base de datos sint�cticos Se construirá la base de datos sintácticos, la cual es necesaria para la obtención de los datos léxicos.	Marzo 2009	Marzo 2009
4	10	Construcci�n de la base de datos l�xicos Se construirá la base de datos de los rasgos de las palabras, para su posterior clasificación y la construcción de las medidas de la semejanza.	Abril 2009	Abril 2009
5	5	Obtenci�n de una muestra la base de datos de la semejanza Se construirá una pequeña base de datos de la semejanza entre las palabras, como una muestra del proceso y su resultado, la cual también se usará de prueba para los demás algoritmos que la usan.	Mayo 2009	Mayo 2009
6	10	Elaboraci�n de los algoritmos para la DSP Se diseñarán los algoritmos para la desambiguación de los sentidos de las palabras (DSP), para la aplicación y pruebas de la base de datos construida.	Junio 2009	Junio 2009
7	5	Aplicaci�n de la base obtenida a la tarea de DSP Se integrará la base obtenida en el algoritmo de DSP diseñado, y se evaluará el resultado.	Julio 2009	Julio 2009
8	5	Elaboraci�n de la base de datos para la clasificaci�n de los textos Se elaborará una base de datos de documentos textuales, tales como las fichas bibliográficas, para las pruebas de la clasificación de textos.	Agosto 2009	Agosto 2009
9	5	Aplicaci�n de la base obtenida a la tarea de clasificaci�n Se aplicará la base de las semejanzas obtenida previamente, al algoritmo de clasificación de textos, tales como las fichas bibliográficas.	Septiembre 2009	Septiembre 2009
10	10	Expansi�n de la base de datos de la semejanza Se efectuará el procesamiento masivo de los datos necesario para la expansión de la base de datos de la semejanza entre las palabras hasta el tamaño útil en las aplicaciones esperadas.	Octubre 2009	Octubre 2009
11	10	Evaluaci�n de los resultados Se analizarán y se evaluarán los resultados de los experimentos, y se obtendrán las conclusiones correspondientes.	Noviembre 2009	Noviembre 2009
12	10	Publicaci�n de los resultados Se elaborarán las publicaciones sobre los resultados, las cuales serán posteriormente enviadas a los relevantes foros de prestigio.	Diciembre 2009	Diciembre 2009
Porcentaje:	100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

6. Presupuesto Solicitado

Cap�tulo	Descripci�n / Concepto	Total (Pesos)
2000	Adquisición de software, bases de datos y colecciones de textos, dicionarios en formato electrónico (bases de datos lingüísticos), libros, partes y repuestos para las computadoras (discos, memoria, etc.) y otros medios de almacenamiento masivo de datos. Se planea adquirir un biblioteca de software con el costo de US$1800 y un paquete para el análisis de lenguaje con el costo de US$2300.	46000
3000	Copiado, escaneado (se necesitará escanear unos diccionarios), empastado de las tesis, gastos de publicación y otros servicios necesarios.	6000
4000
5000
7000	Asistencia a los congresos más relevantes del área de investigación. Se planea presentar los resultados del proyecto en varios foros internacionales importantes. Los gastos posibles son (por dos viajes al extranjero): 2 x US$ 1500 boletos, 2 x US$100 x 5 días hotel = MN$ 48,000.	48000
Total:		$ 100000

Dictamen del Proyecto:
Aprobado