FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Departamento de Ciencias de la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis de un diccionario explicativo con un algoritmo genético para la búsqueda de un conjunto definidor

Registro asignado por la SIP:  20120418     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Correo electrónico Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En este proyecto se propone un nuevo método para la detección de las palabras definidoras en un diccionario explicativo. Las posibles aplicaciones computacionales para diccionarios semánticos explicativos son de muy diversa índole, sin embargo, existe un fenómeno que impide el uso adecuado de éstos: los círculos en las definiciones (círculos viciosos, ciclos). Es imposible de encontrar un diccionario semántico (que define palabra a través de si mismas) sin círculos en sus definiciones. Sin embargo, las computadoras no pueden manejar las relaciones en círculos. En un diccionario computacional algunas palabras son marcadas como las palabras sin definiciones, podemos llamar estas palabras un conjunto definidor. La obtención de un conjunto definidor mínimo de palabras mediante las cuales puedan definirse el resto de las palabras del diccionario evitando los ciclos en las definiciones permitiría el uso de éstos como herramienta eficaz en el procesamiento de textos y la extracción de información entre otras tareas de lingüística computacional. Hasta el momento, existen métodos que lo hacen con un proceso aleatorio; cabe mencionar que un método de cálculo directo es imposible dado que es un np-problema. Nuestra propuesta es utilizar un algoritmo genético para encontrar una solución muy cercana a al óptima. El diccionario se representa como un grafo dirigido, y el algoritmo genético construirá el nuevo grafo a partir de éste, sin círculos, insertando un nodo tras otro. El cromosoma se definirá como un orden de inserción de los elementos en el grafo sin círculos. Se hará la evaluación del conjunto definidor obtenido tomando en cuenta el número de elementos en él, las frecuencias de sus elementos en un corpus grande (por ejemplo, en Internet), el peso de los elementos que se calcularán utilizando el algoritmo PageRank en el diccionario, y la presencia de los elementos en otros conjuntos construidos manualmente, como en LDOCE.

1.2 Objetivo general
Esta investigación tiene como objetivo desarrollar un método y su implementación en software (prototipo) para la extracción de un conjunto definidor (un conjunto mínimo de las palabras a través de las cuales se puedan definir el resto de las palabras del diccionario eliminando los círculos en las definiciones) de un diccionario explicativo en el español usando un algoritmo genético y evaluar los resultados.

1.3 Objetivos específicos
Un método y su implementación en software (prototipo) para la extracción de un conjunto definidor de un diccionario explicativo en el español usando un algoritmo genético y evaluación de los resultados.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   1 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   1 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   2 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Coordinación de esfuerzos de programación, ayuda en programación, ayuda en selección de la metodología de evaluación y desarrollo.
3 Nareli Cruz Cortés
  
Consultas sobre los algoritmos genéticos, determinación del tipo del algoritmo genético, determinación de los parámetros del algoritmo genético.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 HONORATO AGUILAR GALICIA PF Participación en metas.
2 Honorato Aguilar Galicia TS Depuración de diccionarios, lematización usando las herramientas disponibles. Filtrado de las palabras auxiliares.
Análisis de características del conjunto obtenido. Experimentos que consisten en la construcción del grafo dirigido y el grafo complementario que contenga el vocabulario definidor.
3 HONORATO AGUILAR GALICIA PF Participación en metas.
4 FRANCISCO ANTONIO CASTILLO VELASQUEZ PF Participación en metas.
5 FRANCISCO ANTONIO CASTILLO VELASQUEZ PF Participación en metas.
6 FRancisco Antonio Castillo Velásquez TS Selección de diccionarios semánticos tradicionales de español y preparación de los datos en el formato digital.
Cálculo de pesos de los elementos del diccionario utilizando el algoritmo PageRank en el diccionario
7 NOÉ ALEJANDRO CASTRO SÁNCHEZ PF Participación en metas.
8 Noé Alejandro Castro Sánchez TS Análisis del problema en el aspecto de que tipo del algoritmo evolutivo es aplicable.
9 NOÉ ALEJANDRO CASTRO SÁNCHEZ PF Participación en metas.
10 Ismael Díaz Rangel TS Programación de herramientas, interfaces y algoritmos. Conversión de los diccionarios al formato digital. Aplicación de las herramientas existentes de análisis.
11 Reyna Melara Abarca TS Programación de herramientas, interfaces y algoritmos. Conversión de los diccionarios al formato digital. Aplicación de las herramientas existentes de análisis.
12 Sabino Miranda Jiménez TS Programación de herramientas, interfaces y algoritmos. Conversión de los diccionarios al formato digital. Aplicación de las herramientas existentes de análisis.
13 Obdulia Pichardo Lagunas TS Tareas de evaluación del conjunto definidor obtenido, haciendo la comparación con los otros conjuntos obtenidos manualmente. Desarrollo de la función de evaluación.
14 MIGUEL ANGEL SANCHEZ PEREZ PF Participación en metas.
15 Francisco Viveros Jiménez TS Programación de herramientas, interfaces y algoritmos. Conversión de los diccionarios al formato digital. Aplicación de las herramientas existentes de análisis.
16 Alisa Zhila - TS Programación de herramientas, interfaces y algoritmos. Conversión de los diccionarios al formato digital. Aplicación de las herramientas existentes de análisis.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Selección de diccionarios semánticos tradicionales
Realizar el análisis de los diccionarios tradicionales del español y determinar cuales de ellos son aptos para su procesamiento automático. Preparar los diccionarios en el formato digital para su posterior procesamiento automático.
Enero 2012 Febrero 2012
2 5 Depuración de diccionarios
Aplicar las herramientas de análisis morfológico y/o sintáctico disponibles para marcar las palabras en los diccionarios, también tomando en cuenta su contexto (FreeLing). Eliminar las palabras auxiliares como preposiciones, artículos, etc.
Febrero 2012 Marzo 2012
3 5 Determinación de que tipo del algoritmo evolutivo es aplicable
Estudiar los algoritmos evolutivos disponibles. Analizar su aplicación a diferentes tipos de tareas, analizar las características del problema en cuestión.
Marzo 2012 Abril 2012
4 10 Preparación de publicaciones y reportes
Preparación de publicaciones y reportes
Marzo 2012 Diciembre 2012
5 5 Determinación de estructura del cromosoma
Escoger una estructura de datos que permite representar diferentes permutaciones y permite su evaluación de manera eficaz.
Abril 2012 Abril 2012
6 10 Selección de los parámetros del algoritmo
Probar varias combinaciones de parámetros y determinar que combinación es más apta para el algoritmo propuesto. Se analizarán: grado de mutación, número de generaciones, tamaño de población, tipo de selección, tipo de cruza
Mayo 2012 Junio 2012
7 5 Determinación de la función objetivo
Determinar las características del conjunto definidor que son importantes durante su evaluación, como su tamaño, frecuencias de los elementos, su rango (importancia), similitud con otros conjuntos construidos manualmente.
Mayo 2012 Junio 2012
8 10 Experimentos
Conducir los experimentos que generen diferentes vocabularios definidores mediante el uso de un algoritmo genético que proporcione la mejor permutación de entrada del vocabulario definidor
Junio 2012 Julio 2012
9 5 Análisis de características del conjunto obtenido
Analizar diferentes propiedades de varios vocabularios definidores obtenidos
Julio 2012 Agosto 2012
10 5 Cálculo de pesos de los elementos del diccionario
Calcular los pesos de los nodos del grafo aplicando el algoritmo PageRank o similar
Agosto 2012 Septiembre 2012
11 15 Evaluación del conjunto definidor obtenido
Evaluar el conjunto definidor tomando en cuenta el número de elementos en él, las frecuencias de sus elementos en un corpus grande (por ejemplo, en Internet), el peso de sus elementos (PageRank), y la presencia de los elementos en otros conjuntos construidos manualmente, como en LDOCE
Septiembre 2012 Octubre 2012
12 20 Desarrollo del prototipo de software
Desarrollar el software que implementa el algoritmo, la interfaz de usuario, el software de evaluación semiautomática de los resultados.
Noviembre 2012 Diciembre 2012
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente (28,000 pesos). 28000   
3000  Para la asistencia a un congreso internacional para presentar los resultados del proyecto 8000   
4000  Para la asistencia de los estudiantes a los congresos nacionales e internacionales para presentar los resultados del proyecto 24000   
5000      
7000      
Total:  $ 60000   

Dictamen del Proyecto:
                                             Aprobado