FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Laboratorio de Tecnologías de Lenguaje Natural 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Desarrollo del sistema para alineación semiautomática de textos paralelos español - inglés y su aplicación para creación de un corpus paralelo

Registro asignado por la SIP:  20050459     
Datos del director(a) del Proyecto de investigaci�n:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56518  Correo electrónico Tel�fono particular:  5591887293 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno    
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica     X    Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
Muchas aplicaciones de procesamiento automático de textos ?traducción automática, generación de resúmenes, recuperación de información, entre otras?, se basan en los recursos léxicos grandes, tales como diccionarios de varios tipos, o los corpus con diferente marcación.
Un tipo muy importante de los corpus son los corpus paralelos alineados. Son importantes porque permiten obtener automáticamente la información del contenido del texto basándose en las diferencias entre los idiomas; a parte de ser útiles en las tareas prácticas como la traducción automática, etc. El texto paralelo más famoso es la piedra de Rosetta que permitió descifrar los jeroglíficos egipcios.

Los corpus se llaman paralelos si contienen el mismo texto en diferentes idiomas y se llaman alineados si se sabe la correspondencia entre los partes estructurales de los textos (párrafos, oraciones, palabras ?que son diferentes niveles de alineación). Cabe mencionar que una oración puede traducirse con varias oraciones, una palabra puede traducirse con toda una expresión u omitirse en la traducción, etc.

Importancia:
Cuando los textos son pequeños, una alineación manual es factible pero, en el caso de grandes cantidades de textos, se prefiere contar con un sistema automático o semiautomático de alineación de los textos paralelos.
Muchas tareas relacionadas con el procesamiento de lenguaje natural pueden usar los textos paralelos alineados, por ejemplo, traducción automática, generación de resúmenes, recuperación de información, etc.
Por la importancia que han adquirido los corpus paralelos en el trabajo de investigación y en las tareas prácticas es deseable poder crear grandes corpus paralelos fácilmente utilizables, siendo uno de los pasos más comunes, importantes y complicados, para la preparación de dichos corpus, la alineación de los textos que conforman al corpus. Debido a esto, en el presente trabajo se desarrolla un sistema semiautomático de alineación de textos paralelos para las lenguas español ? inglés.

Metodología:
Para el desarrollo del método de alineación se usarán tanto las técnicas estadísticas coma las lingüísticas.

Las técnicas lingüísticas se basan en:
1) El marcado morfológico de textos (tenemos en el laboratorio el analizador morfológico automático para el español y para el inglés) y explotan la posibilidad de la traducción con la misma parte de oración (o categoría gramatical, como, por ejemplo, sustantivo, verbo, etc.).
2) Los recursos léxicos grandes (diccionarios bilingües español?inglés e inglés?español, en nuestro laboratorio tenemos tales diccionario suficientemente grandes ?de más de 30,000 entradas? en el formato de base de datos), los que permiten encontrar automáticamente las posibles traducciones de las palabras de un idioma a otro.

Las técnicas estadísticas se basan en la correspondencia en longitud de oraciones y párrafos en cada idioma, es decir, la oración en español es en un número determinado más larga que la oración en inglés. Se puede explotar las variaciones de la longitud en el texto en comparación con la longitud esperada.
De este modo, el método primero determina la correspondencia entre los textos basándose en las características estadísticas, y en el siguiente paso los resultados obtenidos se verifican y se corrigen en caso necesario usando los métodos lingüísticos.
Para aplicar los métodos lingüísticos en la primera etapa se hace normalización de las palabras en los textos usando los sistemas para el análisis morfológico de ambos idiomas. Después, para cada palabra en uno de los textos se busca sus posibles traducciones en el diccionario, y después se espera que una de las traducciones se encuentre en el texto paralelo. De no ser así para un número significativo de las palabras, es posible que los textos estén mal alineados, y se busca su alineación correcta ?que puede ser parte de otra oración, o de otro párrafo? usando el mismo método.

1.2 Objetivo general
El objetivo general consiste en el desarrollo de un método que permita alinear, de manera semiautomática (es decir, automáticamente en la mayoría de los casos, y en caso de no poder resolver la ambigüedad se solicita la intervención humana), a los textos paralelos español ? inglés y su implementación en un sistema. Después, aplicando el sistema se compilará un corpus paralelo alineado español ? inglés.

1.3 Objetivos específicos
1. El método desarrollado capaz de alinear textos paralelos español ? inglés, haciendo uso de la información estadística y lingüística propia de los textos procesados.
2. Corpus paralelo no alineado español ? inglés (textos sin formato).
3. Corpus paralelo no alineado español ? inglés (textos etiquetados).
4. Corpus paralelo alineado español ? inglés.
5. Esquema de marcado.
6. Programas de ma

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   1 
Congresos  0   2  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   1 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Desarrollo de las marcas morfológicas, aplicación de los programas de análisis morfológico. (Tiene mucha experiencia en el análisis morfológico de varios idiomas)
3 Igor Bolshakov 
  
Consultas sobre los métodos estadísticos, desarrollo de la esquema de marcado (Tiene mucha experiencia en aplicación de los métodos estadísticos y procesamiento de las cantidades grandes de textos).


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 Vicente Cubells Nonell PF Desarrollo e implementación del algoritmo de alineación de los textos paralelos. Compilación del corpus paralelo alineado español ? inglés aplicando el algoritmo desarrollado.
2 José Ernesto Goméz Balderas PF Compilación del corpus paralelo no alineado (unos textos grandes que son traducciones uno de otro) usando Internet. Desarrollo del método de alineación basado en la información estadística propia de los textos procesados. Compilación del corpus paralelo alineado español ? inglés aplicando el algorit
3 Omar Olivas Zazueta PF Compilación del corpus paralelo no alineado (unos textos grandes que son traducciones uno de otro). Evaluación de los resultados de alineación.
4 José Ángel Vera Félix TS Desarrollo del método de alineación basado en la información estadística y lingüística propia de los textos procesados.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 10 Compilación del corpus paralelo no alineado usando Internet.
Se hacen búsquedas y descargas de archivos de los textos paralelos en español e inglés en sitios con obras literarias gratuitas para obtener un conjunto de textos bastante representativo.
Febrero 2005 Marzo 2005
2 10 Desarrollo de la esquema del marcado basándose en el formalismo XML o UML
Se estudian los esquemas de marcado existentes, se analizan, y se construye un esquema de marcado adecuada para la tarea de alineación de los textos en el formalismo XML o UML.
Marzo 2005 Abril 2005
3 15 Preparación de las publicaciones y reportes.
Se preparan las publicaciones, reportes, y manuales del usuario.
Mayo 2005 Enero 2006
4 10 Marcado de textos con las marcas morfológicas.
Se aplican los programas de análisis morfológico con un posible resolución de la ambigüedad morfológica para los textos obtenidos de Internet y se marcan las palabras según el esquema de marcado aceptado.
Mayo 2005 Junio 2005
5 25 Desarrollo del método de alineación basado en la información estadística y lingü
Se desarrolla el método de alineación, se hacen pruebas con diferentes parámetros, se hace la evaluación preliminar de la calidad del método.
Junio 2005 Septiembre 2005
6 10 Desarrollo e implementación del algoritmo de alineación de los textos paralelos.
Se desarrolla el algoritmo a base del método desarrollado y se escribe el código que implementa el algoritmo en C++.
Agosto 2005 Octubre 2005
7 10 Compilación del corpus paralelo alineado español ? inglés aplicando el algoritmo
Se aplica el programa desarrollado al corpus compilado en el modo semiautomático, es decir, con la corrección manual de lo casos que el sistema no puede resolver. Se usa el esquema del marcado aceptado.
Octubre 2005 Noviembre 2005
8 10 Evaluación de los resultados de alineación.
Se revisa manualmente el corpus y se evalúa la precisión del sistema.
Noviembre 2005 Diciembre 2005
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  1) Partes de computadoras (memoria adicional, tarjetas de video, discos duros, teclados, etc.) $7,500.00
2) Discos CD-ROM gravables (50 piezas x 10 pesos c/u)$500.00
3) Discos DVD-ROM gravables (40 piezas x 40 pesos c/u)$1,600.00
9600   
3000  1) Mantenimiento de equipo,
2) Estancia de trabajo a la Universidad de Valencia (Dr. P. Rosso) donde se hacen trabajos sobre los métodos de alineación de textos.
3) Participación de los integrantes de proyecto en un congreso internacional y un congreso nacional.
19200   
4000      
5000      
7000      
Total:  $ 28800