FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Depto de Ciencias de la Computación 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Determinación automática de autores de textos usando n-gramas sintácticos continuos y no-continuos.

Registro asignado por la SIP:  20144274     
Datos del director(a) del Proyecto de investigaci�n:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56518  Correo electrónico Tel�fono particular:  5591887293 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Otros  
Subsector:   Otros  
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno   X
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica     X    Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
En este proyecto propondrá un método de selección de características basadas en el recién propuesto por nosotros concepto de los n-gramas sintácticos, tanto continuos como no-continuos. El método selecciona las características y las aplica usando de algún método de aprendizaje automático. Se compondrá un corpus de las obras literarias en español y/o en el inglés para realizar pruebas. A este corpus se aplicarán los métodos de extracción de características y clasificación de textos, para evaluar si en este corpus se podrá realizar la determinación automática de los autores de textos. Se analizarán los parámetros de los métodos de aprendizaje automático y de tamaño de los textos adecuado para la tarea.

1.2 Objetivo general
Esta investigación tiene como objetivo desarrollar un método determinación automática de autoría de textos, su implementación en software (prototipo), preparación de un corpus para pruebas, y realización de su evaluación empleando varios métodos de clasificación automática de textos y selección de varios tipos de características.

1.3 Objetivos específicos
1. Probar varios métodos de selección de características para la tarea de determinación automática de autores de textos.
2. Probar varios algoritmos de aprendizaje automático para esta tarea, modificando sus parámetros y tipos.
3. Desarrollar un corpus de obras literarias en español y/o en el inglés para realizar pruebas.
4. Realizar experimentos con varios tipos de características y algoritmos

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   1 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   4 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Obdulia Pichardo Lagunas
  
Coordinación de desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintácticos continuos y no continuos. Coordinación de aplicación de los métodos de aprendizaje automático.
3 Alexander Gelbukh x
  
Coordinación de esfuerzos de programación, ayuda en programación, ayuda en selección de la metodología de evaluación y desarrollo.


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 José Adriel Alonso Castro TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
2 Vanessa Camacho Vázquez TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
3 Victor Carrera Trejo TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
4 Ivan Omar Cruz García TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
5 Helena Gómez Adorno TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
6 MARTIN IBARRA ROMERO PF Participación en metas.
7 Martín Ibarra Romero TS Selección de textos obras literarias en español que conformarán el corpus de pruebas.
Desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintácticos continuos.Análisis de las métricas de evaluación de los resultados.
8 Hugo Librado  TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
9 Alain Menchaca Reséndiz TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
10 Fernando Monroy Tenorio TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
11 Juan Pablo Posadas Durán TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
12 EDUARDO RENE RODRIGUEZ AVILA PF Participación en metas.
13 Eduardo René Rodríguez Ávila TS Selección del analizador sintáctico más apropiado para la tarea.
Desarrollo de software de obtención de n-gramas sintácticos no continuos.
Selección y preparación de la línea base.
14 MIGUEL ANGEL SANCHEZ PEREZ PF Participación en metas.
15 Miguel Angel Sánchez Pérez TS Selección de textos obras literarias en el inglés que conformarán el corpus de pruebas.
Selección de los métodos de clasificación más relevantes. Generación de los archivos de entrada para los clasificadores automáticos.
Aplicación de los métodos de clasificación a los datos obtenidos.
16 Francisco Viveros Jiménez TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
17 Alisa Zhila  TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 15 Selección de textos de obras literarias en español y/o en el inglés...
Se seleccionarán los textos de varias obras literarias disponibles libremente, escritos en inglés y/o en el español.
Enero 2014 Marzo 2014
2 15 Preparación de publicaciones y reportes
Preparar publicaciones y reportes actividades
Enero 2014 Diciembre 2014
3 10 Desarrollo o selección de los elementos de software ...
Se seleccionarán o desarrollarán los métodos de clasificación automática, dependiendo de sus parámetros de uso y disponibilidad de su implementación.
Febrero 2014 Marzo 2014
4 5 Selección del analizador sintáctico más apropiado para la tarea.
Se analizarán varias posibilidades de aplicar algún analizador sintáctico para el procesamiento de textos, en el inglés y/o en el español (FreeLing, Stanford, Minipar, entre otros).
Abril 2014 Abril 2014
5 10 Aplicación de un analizador sintáctico el corpus de pruebas.
Se aplicará el analizador sintáctico al corpus desarrollado para obtener las estructuras sintácticas y la información morfológica de las palabras y oraciones
Abril 2014 Junio 2014
6 15 Desarrollo de software de obtención de n-gramas tradicionales y n-gramas sintáct
Se desarrollará un software que permite realizar el análisis de los datos obtenidos por el analizador sintáctico y generar los n-gramas de varios tipos y de composición variada (POS tags, nombres de relaciones, lemas, etc.).
Mayo 2014 Agosto 2014
7 10 Selección y preparación de la línea base.
Analizar las posibilidades de seleccionar algún método sencillo y aplicarlo como línea base para posterior comparación
Agosto 2014 Septiembre 2014
8 5 Generación de los archivos de entrada para los clasificadores automáticos.
Generar los archivos de salida del algoritmo de selección de características, que al mismo tiempo serán los archivos de entrada de los clasificadores automáticos. Considerar los algoritmos de Weka. Aplicar el software desarrollado a los datos generados por el algoritmo.
Agosto 2014 Agosto 2014
9 10 Aplicación de los métodos de clasificación a los datos obtenidos
Probar varios algoritmos disponibles en la herramienta de clasificación y seleccionar 3-4 algoritmos con el mejor desempeño.
Probar la aplicación de los filtros para los archivos de entrada de clasificadores.
Aplicar los clasificadores a los datos obtenidos.
Septiembre 2014 Octubre 2014
10 5 Análisis de las métricas de evaluación de los resultados
Analizar las métricas de evaluación disponibles en la herramienta de clasificación.
Comparar los resultados de varios clasificadores con varios parámetros
Noviembre 2014 Diciembre 2014
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente. 38000   
3000  Para la asistencia a un congreso internacional para presentar los resultados del proyecto 15000   
4000  para la asistencia de los estudiantes a los congresos nacionales e internacionales para presentar los resultados del proyecto 15000   
5000      
7000      
Total:  $ 68000