INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Febrero 2005 - Enero 2006)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Tecnologías de Lenguaje Natural 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Desarrollo del sistema para alineación semiautomática de textos paralelos español - inglés y su aplicación para creación de un corpus paralelo

Registro asignado por la SIP:  20050459     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Muchas aplicaciones de procesamiento automático de textos ?traducción automática, generación de resúmenes, recuperación de información, entre otras?, se basan en los recursos léxicos grandes, tales como diccionarios de varios tipos, o los corpus con diferente marcación.
Un tipo muy importante de los corpus son los corpus paralelos alineados. Son importantes porque permiten obtener automáticamente la información del contenido del texto basándose en las diferencias entre los idiomas; a parte de ser útiles en las tareas prácticas como la traducción automática, etc. El texto paralelo más famoso es la piedra de Rosetta que permitió descifrar los jeroglíficos egipcios.

Los corpus se llaman paralelos si contienen el mismo texto en diferentes idiomas y se llaman alineados si se sabe la correspondencia entre los partes estructurales de los textos (párrafos, oraciones, palabras ?que son diferentes niveles de alineación). Cabe mencionar que una oración puede traducirse con varias oraciones, una palabra puede traducirse con toda una expresión u omitirse en la traducción, etc.

Importancia:
Cuando los textos son pequeños, una alineación manual es factible pero, en el caso de grandes cantidades de textos, se prefiere contar con un sistema automático o semiautomático de alineación de los textos paralelos.
Muchas tareas relacionadas con el procesamiento de lenguaje natural pueden usar los textos paralelos alineados, por ejemplo, traducción automática, generación de resúmenes, recuperación de información, etc.
Por la importancia que han adquirido los corpus paralelos en el trabajo de investigación y en las tareas prácticas es deseable poder crear grandes corpus paralelos fácilmente utilizables, siendo uno de los pasos más comunes, importantes y complicados, para la preparación de dichos corpus, la alineación de los textos que conforman al corpus. Debido a esto, en el presente trabajo se desarrolla un sistema semiautomático de alineación de textos paralelos para las lenguas español ? inglés.

Metodología:
Para el desarrollo del método de alineación se usarán tanto las técnicas estadísticas coma las lingüísticas.

Las técnicas lingüísticas se basan en:
1) El marcado morfológico de textos (tenemos en el laboratorio el analizador morfológico automático para el español y para el inglés) y explotan la posibilidad de la traducción con la misma parte de oración (o categoría gramatical, como, por ejemplo, sustantivo, verbo, etc.).
2) Los recursos léxicos grandes (diccionarios bilingües español?inglés e inglés?español, en nuestro laboratorio tenemos tales diccionario suficientemente grandes ?de más de 30,000 entradas? en el formato de base de datos), los que permiten encontrar automáticamente las posibles traducciones de las palabras de un idioma a otro.

Las técnicas estadísticas se basan en la correspondencia en longitud de oraciones y párrafos en cada idioma, es decir, la oración en español es en un número determinado más larga que la oración en inglés. Se puede explotar las variaciones de la longitud en el texto en comparación con la longitud esperada.
De este modo, el método primero determina la correspondencia entre los textos basándose en las características estadísticas, y en el siguiente paso los resultados obtenidos se verifican y se corrigen en caso necesario usando los métodos lingüísticos.
Para aplicar los métodos lingüísticos en la primera etapa se hace normalización de las palabras en los textos usando los sistemas para el análisis morfológico de ambos idiomas. Después, para cada palabra en uno de los textos se busca sus posibles traducciones en el diccionario, y después se espera que una de las traducciones se encuentre en el texto paralelo. De no ser así para un número significativo de las palabras, es posible que los textos estén mal alineados, y se busca su alineación correcta ?que puede ser parte de otra oración, o de otro párrafo? usando el mismo método.

1.2 Objetivo general
El objetivo general consiste en el desarrollo de un método que permita alinear, de manera semiautomática (es decir, automáticamente en la mayoría de los casos, y en caso de no poder resolver la ambigüedad se solicita la intervención humana), a los textos paralelos español ? inglés y su implementación en un sistema. Después, aplicando el sistema se compilará un corpus paralelo alineado español ? inglés.

1.3 Objetivos específicos
1. El método desarrollado capaz de alinear textos paralelos español ? inglés, haciendo uso de la información estadística y lingüística propia de los textos procesados.
2. Corpus paralelo no alineado español ? inglés (textos sin formato).
3. Corpus paralelo no alineado español ? inglés (textos etiquetados).
4. Corpus paralelo alineado español ? inglés.
5. Esquema de marcado.
6. Programas de ma

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Desarrollo de las marcas morfológicas, aplicación de los programas de análisis morfológico. (Tiene mucha experiencia en el análisis morfológico de varios idiomas)
3 Igor Bolshakov 
  
Consultas sobre los métodos estadísticos, desarrollo de la esquema de marcado (Tiene mucha experiencia en aplicación de los métodos estadísticos y procesamiento de las cantidades grandes de textos).


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Vicente Cubells Nonell PF Desarrollo e implementación del algoritmo de alineación de los textos paralelos. Compilación del corpus paralelo alineado español ? inglés aplicando el algoritmo desarrollado.
2 José Ernesto Goméz Balderas PF Compilación del corpus paralelo no alineado (unos textos grandes que son traducciones uno de otro) usando Internet. Desarrollo del método de alineación basado en la información estadística propia de los textos procesados. Compilación del corpus paralelo alineado español ? inglés aplicando el algorit
3 Omar Olivas Zazueta PF Compilación del corpus paralelo no alineado (unos textos grandes que son traducciones uno de otro). Evaluación de los resultados de alineación.
4 José Ángel Vera Félix TS Desarrollo del método de alineación basado en la información estadística y lingüística propia de los textos procesados.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Febrero 2005 - Enero 2006)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Compilación del corpus paralelo no alineado usando Internet.
Se hacen búsquedas y descargas de archivos de los textos paralelos en español e inglés en sitios con obras literarias gratuitas para obtener un conjunto de textos bastante representativo.
Febrero 2005 Marzo 2005
2 10 Desarrollo de la esquema del marcado basándose en el formalismo XML o UML
Se estudian los esquemas de marcado existentes, se analizan, y se construye un esquema de marcado adecuada para la tarea de alineación de los textos en el formalismo XML o UML.
Marzo 2005 Abril 2005
3 15 Preparación de las publicaciones y reportes.
Se preparan las publicaciones, reportes, y manuales del usuario.
Mayo 2005 Enero 2006
4 10 Marcado de textos con las marcas morfológicas.
Se aplican los programas de análisis morfológico con un posible resolución de la ambigüedad morfológica para los textos obtenidos de Internet y se marcan las palabras según el esquema de marcado aceptado.
Mayo 2005 Junio 2005
5 25 Desarrollo del método de alineación basado en la información estadística y lingü
Se desarrolla el método de alineación, se hacen pruebas con diferentes parámetros, se hace la evaluación preliminar de la calidad del método.
Junio 2005 Septiembre 2005
6 10 Desarrollo e implementación del algoritmo de alineación de los textos paralelos.
Se desarrolla el algoritmo a base del método desarrollado y se escribe el código que implementa el algoritmo en C++.
Agosto 2005 Octubre 2005
7 10 Compilación del corpus paralelo alineado español ? inglés aplicando el algoritmo
Se aplica el programa desarrollado al corpus compilado en el modo semiautomático, es decir, con la corrección manual de lo casos que el sistema no puede resolver. Se usa el esquema del marcado aceptado.
Octubre 2005 Noviembre 2005
8 10 Evaluación de los resultados de alineación.
Se revisa manualmente el corpus y se evalúa la precisión del sistema.
Noviembre 2005 Diciembre 2005
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  1) Partes de computadoras (memoria adicional, tarjetas de video, discos duros, teclados, etc.) $7,500.00
2) Discos CD-ROM gravables (50 piezas x 10 pesos c/u)$500.00
3) Discos DVD-ROM gravables (40 piezas x 40 pesos c/u)$1,600.00
9600   
3000  1) Mantenimiento de equipo,
2) Estancia de trabajo a la Universidad de Valencia (Dr. P. Rosso) donde se hacen trabajos sobre los métodos de alineación de textos.
3) Participación de los integrantes de proyecto en un congreso internacional y un congreso nacional.
19200   
4000      
5000      
7000      
Total:  $ 28800