Protocolo para Proyectos de Investigación

Muchas aplicaciones de procesamiento automático de textos ?traducción automática, generación de resúmenes, recuperación de información, entre otras?, se basan en los recursos léxicos grandes, tales como diccionarios de varios tipos, o los corpus con diferente marcación.
Un tipo muy importante de los corpus son los corpus paralelos alineados. Son importantes porque permiten obtener automáticamente la información del contenido del texto basándose en las diferencias entre los idiomas; a parte de ser útiles en las tareas prácticas como la traducción automática, etc. El texto paralelo más famoso es la piedra de Rosetta que permitió descifrar los jeroglíficos egipcios.

Los corpus se llaman paralelos si contienen el mismo texto en diferentes idiomas y se llaman alineados si se sabe la correspondencia entre los partes estructurales de los textos (párrafos, oraciones, palabras ?que son diferentes niveles de alineación). Cabe mencionar que una oración puede traducirse con varias oraciones, una palabra puede traducirse con toda una expresión u omitirse en la traducción, etc.

Importancia:
Cuando los textos son pequeños, una alineación manual es factible pero, en el caso de grandes cantidades de textos, se prefiere contar con un sistema automático o semiautomático de alineación de los textos paralelos.
Muchas tareas relacionadas con el procesamiento de lenguaje natural pueden usar los textos paralelos alineados, por ejemplo, traducción automática, generación de resúmenes, recuperación de información, etc.
Por la importancia que han adquirido los corpus paralelos en el trabajo de investigación y en las tareas prácticas es deseable poder crear grandes corpus paralelos fácilmente utilizables, siendo uno de los pasos más comunes, importantes y complicados, para la preparación de dichos corpus, la alineación de los textos que conforman al corpus. Debido a esto, en el presente trabajo se desarrolla un sistema semiautomático de alineación de textos paralelos para las lenguas español ? inglés.

Metodología:
Para el desarrollo del método de alineación se usarán tanto las técnicas estadísticas coma las lingüísticas.

Las técnicas lingüísticas se basan en:
1) El marcado morfológico de textos (tenemos en el laboratorio el analizador morfológico automático para el español y para el inglés) y explotan la posibilidad de la traducción con la misma parte de oración (o categoría gramatical, como, por ejemplo, sustantivo, verbo, etc.).
2) Los recursos léxicos grandes (diccionarios bilingües español?inglés e inglés?español, en nuestro laboratorio tenemos tales diccionario suficientemente grandes ?de más de 30,000 entradas? en el formato de base de datos), los que permiten encontrar automáticamente las posibles traducciones de las palabras de un idioma a otro.

Las técnicas estadísticas se basan en la correspondencia en longitud de oraciones y párrafos en cada idioma, es decir, la oración en español es en un número determinado más larga que la oración en inglés. Se puede explotar las variaciones de la longitud en el texto en comparación con la longitud esperada.
De este modo, el método primero determina la correspondencia entre los textos basándose en las características estadísticas, y en el siguiente paso los resultados obtenidos se verifican y se corrigen en caso necesario usando los métodos lingüísticos.
Para aplicar los métodos lingüísticos en la primera etapa se hace normalización de las palabras en los textos usando los sistemas para el análisis morfológico de ambos idiomas. Después, para cada palabra en uno de los textos se busca sus posibles traducciones en el diccionario, y después se espera que una de las traducciones se encuentre en el texto paralelo. De no ser así para un número significativo de las palabras, es posible que los textos estén mal alineados, y se busca su alineación correcta ?que puede ser parte de otra oración, o de otro párrafo? usando el mismo método.