FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2017 - Diciembre 2017)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Departamento de Ciencias de la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Identificación automática del lenguaje nativo de autores de textos

Registro asignado por la SIP:  20171813     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En este proyecto se propone desarrollar un método para identificación automática de lenguage nativo (ILN). ILN se centra en la identificación del lenguage nativo de un autor basado en textos escritos en una segunda lengua. Proponemos características novedosas que no ha sido probado antes en la tarea de ILN, tales como n-gramas de caracteres y n-gramas sintácticos de varios tipos, y las combinamos con características que comúnmente se utilizan en ILN para evaluar su desempeño. Además, determinamos características independientes del tópico para ILN. Para ello, llevamos a cabo experimentos donde el conjunto de entrenamiento contiene textos sobre una determinada área temática, mientras que el conjunto de prueba incluye textos sobre otra área temática. Esto contribuye al desarrollo de una metodología robusta de ILN que pueda ser aplicado sobre diferentes géneros y corpus.

1.2 Objetivo general
Esta investigación tiene como objetivo desarrollar un método que resuelva la tarea de identificación de lenguaje nativo (ILN), es decir, permite identificar el lenguaje nativo de un autor basado únicamente en una muestra de su escritura en otro lenguaje usando la información semántica y sintáctica

1.3 Objetivos específicos
1. Formulación del problema de identificación de lenguaje nativo como un problema de clasificación en el espacio vectorial.
2. Preparación de los conjuntos de datos.
3. Desarrollo del modelo de identificación de lenguaje nativo utilizando n-gramas sintácticos, n-gramas de caracteres y de diferentes tipos, combinaciones de características y el método que le corresponde.
4. Experimentos con

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh .
  
Coordinación de aplicación de los métodos de aprendizaje automático.
3 Ildar Batyrshin .
  
Coordinación de esfuerzos de programación, ayuda en programación, ayuda en selección de la metodología de evaluación y desarrollo
4 Obdulia Pichardo Lagunas
  
Coordinación de desarrollo de software de obtención de n-gramas sintácticos continuos y no continuos de textos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características.
5 Olga Kolesnikova .
  
Coordinación de desarrollo de construcción de n-gramas sintácticos, de n-gramas de caracteres de diferentes tipos y combinaciones de características


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Diego Aguilar Mayen TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
2 José Adriel Alonso Castro TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
3 Iqra Ameer  TS Programación de herramientas, interfaces y algoritmos.
4 Vanessa Camacho Vasquez TS Preprocesamiento de los conjuntos de datos.
5 VANESSA ALEJANDRA CAMACHO VAZQUEZ PF Participación en metas.
Preprocesamiento de los conjuntos de datos.
6 Carolina Fócil Arias TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
7 Roddy Fuentes Alba TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
8 Francisco Javier García López TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
9 Helena Gomez Adorno TS Construcción de n-gramas sintácticos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características.
Evaluación de los resultados en diferentes métricas.
10 HELENA MONTSERRAT GÓMEZ ADORNO PF Participación en metas.
Construcción de n-gramas sintácticos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características.
11 Navonil Majumder . TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
12 Sergio Andrés Mancera Nomesque TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
13 Ilia Markov . TS Procesamiento sintáctico del conjunto de datos.
Aplicación del método desarrollado a los conjuntos de datos.
Experimentos con diferentes parámetros del método y diferentes métodos de clasificación.
14 ILIA MARKOV . PF Participación en metas.
Procesamiento sintáctico del conjunto de datos.
Aplicación del método desarrollado a los conjuntos de datos.
Experimentos con diferentes parámetros del método y diferentes métodos de clasificación.
15 CAROLINA MARTÍN DEL CAMPO RODRÍGUEZ PF Participación en metas.
Evaluación de los resultados en diferentes métricas.
16 B160623 Menchaca Reséndiz TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
17 Eduardo René Rodríguez Ávila TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
18 Miguel Ángel Sánchez Pérez TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
19 Jorge Luis Zúñiga Hernández TS Programación de herramientas, interfaces y algoritmos. Aplicación de las herramientas existentes de análisis y clasificación.
20 JORGE LUIS ZÚÑIGA HERNÁNDEZ PF Participación en metas.
Experimentos con selección de diferentes características y diferentes escalas de valores para la tarea seleccionada.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2017 - Diciembre 2017)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Obtención del conjunto de datos
Escribir a los organizadores de la tarea de identificación de lenguaje nativo y solicitar los datos de la tarea. Los datos son ensayos escritos por hablantes de inglés no nativos como parte de una prueba de alto nivel de competencia general en inglés académico.
Enero 2017 Enero 2017
2 10 División de este conjunto de datos por tópicos
Desarrollar un método que divide el conjunto de datos de la manera que los ensayos en diferentes tópicos forman conjuntos de entrenamiento y evaluación
Febrero 2017 Abril 2017
3 10 Preprocesamiento de estos conjuntos de datos
Aplicar varios algoritmos de preprocesamiento de datos que permiten eliminar los elementos innecesarios o indeseables de los textos (ligas, stopwords, etc.).
Febrero 2017 Abril 2017
4 10 Procesamiento sintáctico de estos conjuntos de datos
Instalar y aplicar a los textos el analizador sintáctico disponible para el inglés. Guardar los resultados de parseo en los archivos correspondientes
Febrero 2017 Abril 2017
5 10 Experimentos con diferentes parámetros del método y diferentes métodos de clasif
Realizar experimentos con diferentes parámetros presentes en el método desarrollado utilizando también varios algoritmos de clasificación y agrupamiento.
Marzo 2017 Octubre 2017
6 10 Preparación de publicaciones y reportes
Preparar publicaciones y reportes.
Marzo 2017 Diciembre 2017
7 10 Experimentos con selección de diferentes características y diferentes escalas de
Realizar experimentos con selección de diferentes características de textos y diferentes valores de esas características (tf-idf, ganancia de información, con o sin normalización).
Abril 2017 Noviembre 2017
8 15 Construcción de los n-gramas sintácticos y los n-gramas de caracteres de diferen
Desarrollar y aplicar los algoritmos de construcción de los n-gramas sintácticos a partir de los árboles sintácticos y de construcción de los n-gramas de caracteres de diferentes tipos. Desarrollar los algoritmos de extracción de características de los n-gramas sintácticos, de los n-gramas de caracteres y combinaciones de características
Abril 2017 Agosto 2017
9 10 Aplicación del método desarrollado a los conjuntos de datos.
Aplicar el método desarrollado a los conjunto de datos: al conjunto original y al conjunto dividido por tópicos. Guardar los resultados en los archivos correspondientes
Julio 2017 Agosto 2017
10 5 Análisis de varias métricas de evaluación
Considerar varias métricas de evaluación de resultados: precisión, exhaustividad, exactitud, medida F, c@.
Noviembre 2017 Diciembre 2017
11 5 Evaluación de los resultados en diferentes métricas
Aplicar varias métricas de evaluación a los resultados obtenidos.
Noviembre 2017 Diciembre 2017
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  65,000 Compra de partes de las computadoras (memorias, discos duros, etc.) para mejorar el equipo existente 65000   
3000  5,000 Para la asistencia a un congreso internacional para presentar los resultados del proyecto
30,000 Para publicacion de los resultados de proyectos en revistas
35000   
4000      
5000      
7000      
Total:  $ 100000