FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Centro de Investigación en Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis de opiniones y de autoría en los textos y datos multimodales con redes neuronales

Registro asignado por la SIP:  20181792     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Correo electrónico Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
El Internet es una fuente extremadamente rica de opiniones de millones de usuarios sobre los productos, servicios, figuras políticas y asuntos de interés público, tanto en forma de textos como en forma de datos multimodales, tales como video. El análisis de opiniones es una tecnología computacional para el aprovechamiento de esta información para los sistemas de toma de decisiones en la industria y política (sistemas de inteligencia de negocios) y sistemas de recomendación en el comercio electrónico. Dos vertientes principales de esta tecnología son el análisis de sentimientos y emociones y el perfilado del autor. Las dos ramas de tecnologías tienen importantes aplicaciones independientes, por ejemplo, la detección de autoría es crucial en la prevención de plagio en texto y en música. Los métodos de aprendizaje neuronal profundo se han demostrado recientemente como una herramienta muy eficiente en ambas ramas de la minería de opiniones, a saber, tanto en el análisis de sentimientos como en el perfilado de autor. Los participantes del proyecto tienen una experiencia amplia en la aplicación de las técnicas neuronales a estas tareas. En el proyecto, se desarrollarán métodos y arquitecturas novedosas para dichas tareas, con aplicaciones a la detección de polaridad de opiniones en los textos y en los datos multimodales, perfilado de autor para el análisis de opiniones y detección de plagio en textos y datos musicales. En particular, se prevé desarrollar y mejorar arquitecturas neuronales correspondientes basadas en jerarquía de modalidades para los datos multimodales, así como basadas en el aprendizaje multitarea para la detección de sarcasmo y clasificación de polaridad. Se espera obtener resultados superiores al actual estado del arte en estas tareas, así como publicar los resultados en foros y revistas de alto impacto.

1.2 Objetivo general
Desarrollo de las técnicas novedosas para el análisis de opiniones y de autoría en los textos y en los datos multimodales, usando redes neuronales profundas y otras técnicas de aprendizaje automático.

1.3 Objetivos específicos
- Desarrollo de las técnicas para el análisis semántico de opiniones y sentimientos en los textos.

- Desarrollo de las técnicas para el análisis de sentimientos en los datos multimodales.

- Desarrollo de las técnicas para el análisis de autoría en los textos.

- Desarrollo preliminar de las técnicas para el análisis de autoría en los datos musicales.

- Formación de recursos humanos de a

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   4 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   3 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   10 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
Desarrollo de métodos de análisis de autoría en los textos.
3 Ildar Batyrshin -
  
Dresarrollo de métodos de análisis de secuencias y series de tiempo para la minería de opiniones en los textos.
4 Olga Kolesnikova -
  
Desarrollo de métodos de análisis estructural y semántico de textos para el análisis de opiniones y autoría.
5 Liliana Chanona Hernández
  
Desarrollo de métodos de inteligencia artificial para el análisis de textos y autoría.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Jesús Alexander Alvarado Gutiérrez TS Desarrollo de métodos de resolución de anáfora y correferencia en los textos.
2 Jason Efraín Angel Gil TS Desarrollo de métodos de inteligencia artificial para el análisis semántico de textos.
3 Segun Taofeek Aroyehun . TS Desarrollo de métodos de análisis semántico de los textos para el análisis de opiniones.
4 Carolina Fócil Arias TS Desarrollo de métodos de análisis secuencial de textos usando aprendizaje automático.
5 Arturo Hernandez Miranda TS Desarrollo de métodos de análisis semántico de textos usando técnicas de aprendizaje automático.
6 Navonil Majumder . TS Desarrollo de métodos de análisis de sentimiento y perfilado de autor en el texto y datos multimodales usando redes neuronales profundas.
7 NAVONIL MAJUMDER . PF participación en metas
8 Christian Efraín Maldonado Sifuentes TS Desarrollo de métodos de análisis de redes sociales para el análisis de opiniones.
9 CÉSAR JESUS NUÑEZ PRADO PF participación en metas
10 Daniel Alejandro Pérez Álvarez TS Desarrollo de métodos de análisis y detección de autoría en datos musicales.
11 ALINA MARIANA PÉREZ SOBERANES PF participación en metas
12 Miguel Ángel Sánchez Pérez TS Desarrollo de métodos de análisis de autoría y detección de plagio.
13 Francisco Gabriel Sandoval Flores TS Desarrollo de métodos de análisis de textos en el dominio jurídico, como un caso de estudio.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 10 Estudio bibliográfico
Recopilación de fuentes bibliográficas relevantes para la temática del proyecto y su estudio detallado para el análisis del estado del arte en el área.
Enero 2018 Enero 2018
2 5 Preparación de datos
Evaluación de los conjuntos de datos existentes y en su caso su adaptación y preparación de los datos faltantes para los experimentos.
Febrero 2018 Febrero 2018
3 5 Preprocesamiento de datos
Procesamiento inicial de los datos para su análisis, conversión en los formatos que facilitan su procesamiento, análisis básico de los textos y los datos multimodales y compilación de las estadísticas relevantes.
Marzo 2018 Marzo 2018
4 10 Métodos de análisis de texto
Desarrollo de los métodos para el análisis computacional lingüístico de textos para la extracción de los rasgos relevantes para la detección de sentimientos y opiniones y el análisis de autoría en los textos.
Abril 2018 Abril 2018
5 10 Métodos para datos multimodales
Desarrollo de las architecturas de las redes neuronales adecuadas para la clasificación de los datos multimodales tales como videos, los cuales incluyen tanto el texto como el sonido y las imágenes. Desarrollo de los métodos para la extracción de rasgos relevantes de los datos musicales para la detección de su autoría.
Mayo 2018 Mayo 2018
6 10 Métodos para el análisis de autoría
Desarrollo de los métodos de análisis de autoría en los textos y en los datos musicales, con el propósito de la detección de plagio y reuso indebido de textos y música.
Junio 2018 Junio 2018
7 10 Implementación de los métodos
Implementación de los métodos desarrollados en los lenguajes de programación tales como Python, con el uso de librerías para la programación de las redes neuronales tales como Theano.
Julio 2018 Julio 2018
8 10 Experimentos e interpretación
Realización de los experimentos usando los programas desarrollados aplicados sobre los datos recopliados y preprocesados en las etapas anteriores del proyecto. La interpretación de los resultados de los experimentos.
Agosto 2018 Agosto 2018
9 10 Evaluación de los resultados
Evaluación de los resultados de los experimentos obtenidos en la meta anterior del proyecto, su comparación con los resultados del estado del arte y obtención de las conclusiones.
Septiembre 2018 Septiembre 2018
10 10 Elaboración de publicaciones
Elaboración de publicaciones para la difusión de los resultados de los experimentos y las observaciones obtenidas.
Octubre 2018 Octubre 2018
11 5 Implementación de mejoras
Elaboración e implementación de las mejoras a los métodos desarrollados en las etapas anteriores del proyecto, tomando en cuenta el análisis de los resultados obtenidos.
Noviembre 2018 Noviembre 2018
12 5 Documentación
Documentación de los resultados obtenidos para la elaboración de los informes y para la preparación de las publicaciones futuras, así como conservación de los programas elaborados para su futuro uso y mejoras.
Diciembre 2018 Diciembre 2018
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Dado que el proyecto trata de métodos computacionales aplicados a grandes volúmenes de datos, se prevé la compra de refacciones nesesarios, tales como tarjetas especializadas de procesamiento gráfico paralelo de los datos (20 mil pesos c/u, se prevén 2 tarjetas), discos duros para el resguardo y procesamiento de los datos (4 mil pesos c/u, se prevén 4 discos), consmibles para las impresiones (2 cartuchos x 2 mil pesos), etc. Además, se prevé la compra de libros y conjuntos de datos necesarios para la realización del proyecto (5 mil pesos aprox.). 65000   
3000  Se prevén dos estancias de investigación para los participantes del proyecto (10 mil pesos c/u), participación en dos congresos (5 mil pesos conforme a la convocatoria), servicios de marcación manual de los conjuntos de datos requeridos para los experimentos (5 mil pesos), servicios de mantenimiento de equipos de cómputo (son 14 participantes del proyecto, mantenimiento dos veces por año a cada equito de cada participante, por 550 pesos en promedio). 35000   
4000      
5000      
7000      
Total:  $ 100000   

Dictamen del Proyecto:
                                             Aprobado