FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Laboratorio del Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis sintáctico y semántico de textos aplicado a tareas de educación, derecho y redes sociales

Registro asignado por la SIP:  20152100     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Correo electrónico Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Educación  
Subsector:   Infraestructura                                                                                                                                                   
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Varias tareas de alta importancia para la educación, derecho y el análisis de redes sociales involucran múltiples aspectos relacionados con el lenguaje humano. Abordaremos cuatro de estos aspectos: la detección de opiniones y emociones en el texto, el razonamiento sobre los documentos legales, extracción de hechos y detección de similitud de los textos y análisis de Wikipedia y contenidos educativos. La detección de opiniones y emociones en el texto es importante en su relación con las redes sociales y los sentimientos en el ambiente educativo asistido por computadora. Desarrollaremos métodos para la detección de emociones y opiniones en el texto con las técnicas semánticas y la detección de aspectos. El razonamiento sobre los documentos legales y jurídicos es importante para el tratamiento correcto y prevención de delitos y para el desarrollo de la democracia en el país. Compilaremos un corpus grande de los contenidos jurídicos mexicanos y desarrollaremos técnicas novedosas para la detección de las leyes y artículos de reglamentos relevantes para ciertas conductas basándonos en los textos que describen tales conductas o textos que pueden indicar tales conductas. La extracción de hechos y detección de similitud de los textos permite la clasificación de los textos, comparación de los usuarios de las redes sociales, su clasificación y agrupamiento, para poder entrenar los clasificadores y otros métodos de aprendizaje supervisado y no supervisado para el análisis de redes sociales. Finalmente, el análisis de textos educativos es importante para la mejora automática de objetos de aprendizaje, así como para la detección y prevención del plagio por los alumnos. El aspecto aglutinador de esta investigación es el desarrollo de las herramientas computacionales para el análisis sintáctico y semántico del lenguaje, aplicables a toda una gama de tareas prácticas.

1.2 Objetivo general
Desarrollar métodos novedosos para la detección de opiniones y emociones en el texto, el razonamiento sobre los documentos legales, extracción de hechos y detección de similitud de los textos y análisis de textos educativos, con aplicaciones a análisis de Wikipedia y minería de opiniones en las redes sociales.

1.3 Objetivos específicos
Investigación bibliográfica, diseño de los métodos, implementación de los métodos, compilación de los recursos léxicos y los corpus, incluidos ejemplos de conversaciones en las redes sociales y un corpus de textos jurídicos de legislación y la práctica mexicana, realización de pruebas, realización de ajustes, preparación de las tesis y artículos. (El sistema no da teclear más texto en este campo.)

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   2 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   1  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   3 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   5 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
Aportará los métodos de comparación de texto con el coseno suave y los rasgos de los n-gramas sintácticos para el aprendizaje automático.
3 Hiram Calvo Castro
  
Aportará los métodos para el análisis de los documentos legales y de los contenidos educativos, así como diversas técnicas del procesamiento del lenguaje natural y análisis sintáctico.
4 Liliana Chanona Hernandez
  
Proporcionará los métodos de análisis de redes y de representación de conocimiento con las técnicas de la inteligencia artificial.
5 Olga Kolesnikova -
  
Proporcionará los métodos de análisis de contenidos educativos y multilingües, especialmente de la vinculación entre el el español y el inglés.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Jesús Alexander Alvarado Gutiérrez TS Desarrollo de los métodos para el análisis lingüístico automático de los contendidos educativos para la respuesta automática a preguntas.
2 Hugo Michel Barbosa López SS Implementación de los métodos de extracción de rasgos de la estructura sintáctica de oraciones.
3 Vanessa Alejandra Camacho Vázquez TS Elaboración de los algoritmos para el análisis de sentimientos y emociones en los textos provenientes de las redes sociales.
4 Pabel Carrillo Mendoza TS Elaboración de la métrica transitiva en los conjuntos de documentos textuales para la comparación y agrupamiento de textos.
5 Mauricio Cervantes Delgadillo SS Implementación de los métodos de extracción de rasgos de la estructura sintáctica de oraciones.
6 CAROLINA FOCIL ARIAS PF Participación en metas.
7 Helena Gómez Adorno TS Desarrollo de los algoritmos para el análisis de texto basados en grafos, con aplicaciones a la respuesta automática a preguntas.
8 Sergio Gonzalo Jiménez Vargas TS Elaboración de los métodos para la comparación semántica suave de textos basados en la técnica de la cardinalidad suave y coseno suave.
9 Hugo Librado Jacobo TS Aplicación de las técnicas de n-gramas sintácticos de varios tipos al procesamiento del lenguaje natural y la comparación de los textos.
10 Navonil Majumder . TS Análisis de sentimientos y opiniones en el texto con aplicación de los métodos mixtos simbólicos y estadísitcos en un ambiente multilingüe.
11 Ilia Markov . TS Compilación semiautomática de ontologías y desambiguación con la aplicación de rasgos lingüisticos para el aprendizaje automático.
12 Reyna Elia Melara Abarca TS Desarrollo de los métodos para la desambiguación de los sentidos de las palabras basados en wikipedia como un corpus semiestructurado.
13 Fernando Monroy Tenorio TS Implementación de los métodos para la minería de opiniones y para la desambiguación textual basados en los n-gramas sintácticos.
14 FERNANDO MONROY TENORIO PF Participación en metas.
15 Claudia Perez Martinez TS Elaboración de los métodos para la desambiguación de los sentidos de las palabras y la secuencialización de los contenidos educativos y objetos de aprendizaje.
16 Soujanya Poria . TS Desarrollo de los métodos para la detección de sentimientos y análisis de opiniones basados en los conceptos.
17 Rodrigo Gabino Ramírez Moreno TS Análisis de las aplicaciones de los métodos del procesamiento del lenguaje natural a la generación musical controlada por los usuarios.
18 Eduardo René Rodríguez Ávila TS Análisis del comportamiento de las redes sociales para la detección de los usuarios influyentes y los flujos de influencia en las redes sociales.
19 MIGUEL ANGEL SANCHEZ PEREZ PF Participación en metas.
20 Miguel Ángel Sánchez Pérez TS Elaboración de los métodos para la comparación de los documentos basados en la generación y comparación de pasajes.
21 Francisco Gabriel Sandoval Flores TS Elaboración de los métodos para el análisis de documentos legales y jurídicos. Compilación del corpus de documentos jurídicos.
22 FRANCISCO GABRIEL SANDOVAL FLORES PF Participación en metas.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 La investigación bibliográfica
Investigación de los artículos relacionados con los temas del proyecto para la determinación del estado del arte, las técnicas más recientes y los recursos léxicos correspondientes disponibles.
Enero 2015 Enero 2015
2 8 La refinación de las técnicas de determinación de aspectos
Implementación de los algoritmos mejorados para la determinación de aspectos de opinión en los textos y determinación de polaridad de tales opiniones mapeada con aspectos específicos.
Febrero 2015 Febrero 2015
3 8 La compilación y adaptación de recursos léxicos para la detección de emociones
Refinación de los recursos léxicos compilados en nuestro trabajo previo para la detección de las palabras y expresiones emotivas y subjetivas. Lo que involucrará las técnicas de aprendizaje automático supervisado y semisupervisado.
Marzo 2015 Marzo 2015
4 8 La compilación del corpus de documentos legales
Colectar un corpus muy grande de documentos legales públicamente disponibles. Desarrollo de las herramientas para su preprocesamiento. Elaboración del marcaje manual para un conjunto de documentos de este corpus.
Abril 2015 Abril 2015
5 8 El análisis del corpus con métodos sintácticos
Desarrollo de los programas para la estructuración del corpus de los documentos con las herramientas del análisis de textos y su conversión en el conjunto de datos numéricos para la aplicación de las técnicas de aprendizaje automático. Se espera que incluirá el desarrollo de métodos para el análisis sintáctico y semántico con n-gramas sintácticos y preferencias seleccionales.
Mayo 2015 Mayo 2015
6 8 El razonamiento sobre los documentos
Elaboración de las técnicas para la recomendación de los artículos de las leyes mexicanas basadas en el corpus elaborado y para la respuesta a preguntas sobre los reglamentos basada en los métodos de grafos.
Junio 2015 Junio 2015
7 8 La extracción de hechos
Refinamiento de los métodos para la conversión de los textos en base de datos semiestructurada de los hechos elementales expresados en tales textos, en forma de tripletas relacionales. Análisis de los problemas que aparecen en tal conversión.
Julio 2015 Julio 2015
8 8 La detección de similitud de los textos
Elaboración de los métodos para la medición de la similitud entre textos con base en las técnicas de la similitud suave y técnicas de grafos, y aplicación de tales métodos al agrupamiento de los textos, tales como las conversaciones en las redes sociales.
Agosto 2015 Agosto 2015
9 8 Las aplicaciones del análisis de textos semiestructurados
Desarrollo de los métodos para la aplicación de Wikipedia y otros textos semiestructurados a las tareas de desambiguación de los sentidos de las palabras y secuencialización de los contendidos educativos.
Septiembre 2015 Septiembre 2015
10 8 Las métricas basadas en pasajes
Desarrollo de los métodos para la comparación y agrupamiento de documentos basados en la construcción y comparación de pasajes, con aplicaciones adicionales a la detección de reúso de texto y plagio en el contexto educativo.
Octubre 2015 Octubre 2015
11 8 La elaboración de los métodos basados en conceptos
Elaboración y aplicación de los métodos basados en contextos para la detección de opiniones y emociones, así como para la comparación semántica de textos con calidad superior a los modelos basados en la bolsa de palabras.
Noviembre 2015 Noviembre 2015
12 10 Los métodos para la respuesta a preguntas en contenidos educativos
Desarrollo e implementación de los métodos para la respuesta a preguntas sobre el corpus de contenidos educativos, con las técnicas basadas en grafos
sintácticos. Desarrollo de un corpus muestra de posibles preguntas. Puede incluir la compilación de un corpus de contenidos educativos mexicanos, a partir de las fuentes públicamente disponibles. Preprocesamiento de tal corpus para su subsecuente an
Diciembre 2015 Diciembre 2015
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de diversos materiales, tales como tóner, discos, memorias USB, memoria y discos duros para las computadoras, materiales de oficina, etc. 5000   
3000  Servicios de marcación manual de los corpus de textos. Servicios de verificación y formación de publicaciones. 10000   
4000  Son 5 participantes profesores y 16 participantes estudiantes. Tenemos previsto un viaje de movilidad para 4 estudiantes, por $6000 avión más $8000 hotel en promedio, lo que resulta en 4 x $14,000 = $56,000. Adicionalmente planeamos un viaje para profesor participante, a un congreso de alto prestigio (tentativamente ICSI-CCI?2015 o MICAI 2015), de aproximadamente $19,000. Se suma a $75,000 aprox. 75000   
5000      
7000      
Total:  $ 90000   

Dictamen del Proyecto:
                                             Aprobado