FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2014 - Diciembre 2014)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Depto de Ciencias de la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Determinación automática de autores de textos usando n-gramas sintácticos continuos y no-continuos.

Registro asignado por la SIP:  20144274     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En este proyecto propondrá un método de selección de características basadas en el recién propuesto por nosotros concepto de los n-gramas sintácticos, tanto continuos como no-continuos. El método selecciona las características y las aplica usando de algún método de aprendizaje automático. Se compondrá un corpus de las obras literarias en español y/o en el inglés para realizar pruebas. A este corpus se aplicarán los métodos de extracción de características y clasificación de textos, para evaluar si en este corpus se podrá realizar la determinación automática de los autores de textos. Se analizarán los parámetros de los métodos de aprendizaje automático y de tamaño de los textos adecuado para la tarea.

1.2 Objetivo general
Esta investigación tiene como objetivo desarrollar un método determinación automática de autoría de textos, su implementación en software (prototipo), preparación de un corpus para pruebas, y realización de su evaluación empleando varios métodos de clasificación automática de textos y selección de varios tipos de características.

1.3 Objetivos específicos
1. Probar varios métodos de selección de características para la tarea de determinación automática de autores de textos.
2. Probar varios algoritmos de aprendizaje automático para esta tarea, modificando sus parámetros y tipos.
3. Desarrollar un corpus de obras literarias en español y/o en el inglés para realizar pruebas.
4. Realizar experimentos con varios tipos de características y algoritmos

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Obdulia Pichardo Lagunas
  
Coordinación de desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintácticos continuos y no continuos. Coordinación de aplicación de los métodos de aprendizaje automático.
3 Alexander Gelbukh x
  
Coordinación de esfuerzos de programación, ayuda en programación, ayuda en selección de la metodología de evaluación y desarrollo.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 José Adriel Alonso Castro TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
2 Vanessa Camacho Vázquez TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
3 Victor Carrera Trejo TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
4 Ivan Omar Cruz García TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
5 Helena Gómez Adorno TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
6 MARTIN IBARRA ROMERO PF Participación en metas.
7 Martín Ibarra Romero TS Selección de textos obras literarias en español que conformarán el corpus de pruebas.
Desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintácticos continuos.Análisis de las métricas de evaluación de los resultados.
8 Hugo Librado  TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
9 Alain Menchaca Reséndiz TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
10 Fernando Monroy Tenorio TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
11 Juan Pablo Posadas Durán TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
12 EDUARDO RENE RODRIGUEZ AVILA PF Participación en metas.
13 Eduardo René Rodríguez Ávila TS Selección del analizador sintáctico más apropiado para la tarea.
Desarrollo de software de obtención de n-gramas sintácticos no continuos.
Selección y preparación de la línea base.
14 MIGUEL ANGEL SANCHEZ PEREZ PF Participación en metas.
15 Miguel Angel Sánchez Pérez TS Selección de textos obras literarias en el inglés que conformarán el corpus de pruebas.
Selección de los métodos de clasificación más relevantes. Generación de los archivos de entrada para los clasificadores automáticos.
Aplicación de los métodos de clasificación a los datos obtenidos.
16 Francisco Viveros Jiménez TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
17 Alisa Zhila  TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2014 - Diciembre 2014)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 15 Selección de textos de obras literarias en español y/o en el inglés...
Se seleccionarán los textos de varias obras literarias disponibles libremente, escritos en inglés y/o en el español.
Enero 2014 Marzo 2014
2 15 Preparación de publicaciones y reportes
Preparar publicaciones y reportes actividades
Enero 2014 Diciembre 2014
3 10 Desarrollo o selección de los elementos de software ...
Se seleccionarán o desarrollarán los métodos de clasificación automática, dependiendo de sus parámetros de uso y disponibilidad de su implementación.
Febrero 2014 Marzo 2014
4 5 Selección del analizador sintáctico más apropiado para la tarea.
Se analizarán varias posibilidades de aplicar algún analizador sintáctico para el procesamiento de textos, en el inglés y/o en el español (FreeLing, Stanford, Minipar, entre otros).
Abril 2014 Abril 2014
5 10 Aplicación de un analizador sintáctico el corpus de pruebas.
Se aplicará el analizador sintáctico al corpus desarrollado para obtener las estructuras sintácticas y la información morfológica de las palabras y oraciones
Abril 2014 Junio 2014
6 15 Desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintáct
Se desarrollará un software que permite realizar el análisis de los datos obtenidos por el analizador sintáctico y generar los n-gramas de varios tipos y de composición variada (POS tags, nombres de relaciones, lemas, etc.).
Mayo 2014 Agosto 2014
7 10 Selección y preparación de la línea base.
Analizar las posibilidades de seleccionar algún método sencillo y aplicarlo como línea base para posterior comparación
Agosto 2014 Septiembre 2014
8 5 Generación de los archivos de entrada para los clasificadores automáticos.
Generar los archivos de salida del algoritmo de selección de características, que al mismo tiempo serán los archivos de entrada de los clasificadores automáticos. Considerar los algoritmos de Weka. Aplicar el software desarrollado a los datos generados por el algoritmo.
Agosto 2014 Agosto 2014
9 10 Aplicación de los métodos de clasificación a los datos obtenidos
Probar varios algoritmos disponibles en la herramienta de clasificación y seleccionar 3-4 algoritmos con el mejor desempeño.
Probar la aplicación de los filtros para los archivos de entrada de clasificadores.
Aplicar los clasificadores a los datos obtenidos.
Septiembre 2014 Octubre 2014
10 5 Análisis de las métricas de evaluación de los resultados
Analizar las métricas de evaluación disponibles en la herramienta de clasificación.
Comparar los resultados de varios clasificadores con varios parámetros
Noviembre 2014 Diciembre 2014
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente. 38000   
3000  Para la asistencia a un congreso internacional para presentar los resultados del proyecto 15000   
4000  para la asistencia de los estudiantes a los congresos nacionales e internacionales para presentar los resultados del proyecto 15000   
5000      
7000      
Total:  $ 68000