FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2019 - Diciembre 2020)

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Departamento de Investigación en Ciencias de la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Modelos del lenguaje, sentimientos y opiniones con métodos de aprendizaje automático y aprendizaje profundo

Registro asignado por la SIP:  20196437     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Las tecnologías de lenguaje empiezan a jugar el papel clave en el desarrollo de los sistemas computacionales. Son tecnologías insignia (Cortana, Siri) de las empresas líderes (Microsoft, Apple, Google). Un aspecto clave para que las computadoras entiendan el lenguaje humano es la detección de sentimientos, emociones, subjetividad, ironía, sarcasmo, así como personalización y estimación de veracidad, ya que estos aspectos (y no sólo la semántica) son muy comunes e importantes en el uso del lenguaje en el mundo real. Su detección permite extraer información muy importante de Internet y las redes sociales (minería de opiniones), contribuyendo a la democracia efectiva y en tiempo real en los ámbitos social, económico y político: la toma de decisiones puntuales basadas en la opinión popular extraída automática y directamente de los comentarios en las redes sociales e Internet. El aprendizaje automático y aprendizaje profundo proveen herramientas muy eficientes para este tipo de análisis del lenguaje. En este proyecto, se desarrollarán nuevos modelos de lenguaje y métodos para las tareas mencionadas. Como línea base, se usarán métodos basados en las arquitecturas comunes de clasificación. Luego, se implementarán y se estudiarán los métodos para este tipo de análisis basados en las arquitecturas básicas de aprendizaje profundo, tales como redes neuronales convolucionales. A éstos, se les agregarán las implementaciones recurrentes, con memorias de tipo LSTM y GRU, así como el mecanismo de atención. Con estos elementos, se implementarán arquitecturas que modelen la estructura lingüística y los rasgos heterogéneos. Estas arquitecturas serán aplicadas y evaluadas con varias tareas en las áreas mencionadas, tales como clasificación afectiva, clasificación de noticias y perfilado del autor, así como a tareas del análisis lingüístico del texto, tales como la resolución de anáfora.

1.2 Objetivo general
Desarrollo de nuevos modelos y métodos basados en el aprendizaje automático y aprendizaje profundo para el análisis del lenguaje, con aplicaciones al análisis de sentimientos, opiniones, redes sociales y noticias

1.3 Objetivos específicos
- Desarrollo de métodos basados en aprendizaje automático e inteligencia artificial

- Desarrollo de métodos básicos basados en aprendizaje profundo

- Desarrollo de arquitecturas basadas en memorias

- Desarrollo de arquitecturas avanzadas

- Difusión a través de publicaciones en revistas y congresos de alto prestigio

- Formación de recursos humanos en Maestría y Doctorado

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   2 
Congresos  0   1  Seminiarios  0   2 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   1 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   5 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   1   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   3 
Congresos  0   1  Seminiarios  0   2 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   1 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   5 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   1   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Olga Kolesnikova .
  
Diseño de los algoritmos para el procesamiento lingüístico de los datos unimodales y multimodales y la fusión de rasgos.
3 Liliana Chanona Hernández
  
Desarrollo de los métodos para el análisis de texto basados en la interligencia artificial y aprendizaje automático en general.
4 Ildar Batyrshin .
  
Diseño de los algoritmos para el análisis de datos secuenciales en general, tales como el uso de las memorias en los módulos basados en el aprendizaje profundo.
5 Grigori Sidorov .
  
Desarrollo de los métodos basados en el análisis sintáctico del texto, incluido el uso de los rasgos basados en in-gramas y n-gramas sintácticos de diversos tipos.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Maaz Amjad  TS Implementación y pruebas de los métodos de análisis de subjetividad y veracidad del texto, tal como la detección de notifias falsas, incluidos los datos multilingües y los aspectos de comparación entre culturas y lenguajes.
2 Jason Efraín Angel Gil TS Implementación y la realización de pruebas con los métodos de análisis de lenguaje basados en la inteligencia artificial y la representación de la estructura del texto.
3 Segun Taofeek Aroyehun  TS Implementación de los métodos básicos de aprendizaje automático y aprendizaje profundo, tales como las redes neuronales convolucionales y sus variantes.
4 OMAR DANIEL GONZÁLEZ TREJO PF Participación en metas
5 Navonil Majumder  TS Implementación de los métodos avanzados para el uso de aprendizaje profundo en el análisis de sentimientos, opiniones y pefilado del autor.
6 NAVONIL MAJUMDER . PF Participación en metas
7 Daniel Alejandro Pérez Álvarez TS Implementación de los métodos basados en memorias (redes neuronales recurrentes) y el mecanismo de atención para el análisis de datos secuenciales.
8 PEDRO EMILIO VÉLEZ LOZANO PF Participación en metas

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2019 - Diciembre 2020)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación bibliográfica
Recopilación de recientes publicaciones sobre los temas relacionados con el proyecto, su lectura y discusión en los seminarios del Laboratorio.
Enero 2019 Enero 2019
2 4 Diseño de conjuntos de datos
Diseño detallado de los conjuntos de datos necesarios para la ejecución del proyecto, con sus formatos de representación y procedimientos de su recopilación.
Febrero 2019 Febrero 2019
3 4 Construcción de conjuntos de datos
Recopilación de los conjuntos de datos de las fuentes en Internet, tales como Twitter y los canales de notificas y los periódicos, y su anotación y organización de acuerdo con el diseño desarrollado en la etapa anterior.
Marzo 2019 Marzo 2019
4 4 Diseño de algoritmos de aprendizaje automático
Diseño de nuevos algoritmos de clasificación de textos, basados en los métodos de aprendizaje automático e inteligencia artificial. Estudio teórico de su comportamiento.
Abril 2019 Abril 2019
5 4 Implementación de algoritmos principales
Implementación de los algoritmos principales de aprendizaje automático desarrollados en la etapa anterior. Esta fase incluye la instalación y configuración de los ambientes de programación correspondientes basados en Python.
Mayo 2019 Mayo 2019
6 5 Experimentación
Aplicación de los programas de aprendizaje automático desarrollados a los conjuntos de datos, usando diferentes parámetros de configuración.
Junio 2019 Junio 2019
7 4 Evaluación preliminar
Evaluación y estudio de los resultados de la experimentación con los algoritmos de aprendizaje automático desarrollados en la etapa anterior.
Julio 2019 Julio 2019
8 4 Análisis de errores y diseño de mejoras
Estudios empíricos y teóricos con el fin de determinar las debilidades de los métodos desarrollados y las áreas de mejora prioritarias, así como el diseño de las mejoras y cambios correspondientes.
Agosto 2019 Agosto 2019
9 4 Implementación de las mejoras
Implementación en software de las mejoras propuestas en la etapa anterior y módulos adicionales, con posible tratamiento y preparación adicional de los conjuntos de datos.
Septiembre 2019 Septiembre 2019
10 4 Experimentación adicional
Realización de experimentos con los módulos adicionales y las etapas de procesamiento cambiadas en la fase anterior, sobre todos los conjuntos de datos.
Octubre 2019 Octubre 2019
11 4 Evaluación y análisis
Análisis de los resultados obtenidos con los experimentos y evaluación final de los métodos de aprendizaje automático diseñados e implementados en el primer año del proyecto.
Noviembre 2019 Noviembre 2019
12 4 Documentación de la etapa
Preparación de las descripciones de los programas realizados y de los informes del proyecto; avance en la escritura de las tesis correspondientes.
Diciembre 2019 Diciembre 2019
13 5 Actualización bibliográfica
Recopilación de las publicaciones sobre los temas relacionados con el proyecto que han aparecido desde la última investigación bibliográfica, su lectura y discusión en los seminarios del Laboratorio. Incluye la actualización bibliográfica en el tema de aprendizaje profundo.
Enero 2020 Enero 2020
14 4 Ampliación de los conjuntos de datos
Recopilación de los datos adicionales para el entrenamiento y evaluación de los métodos de aprendizaje profundo sobre un conjunto extendido de aplicaciones.
Febrero 2020 Febrero 2020
15 4 Arquitectura básica
Diseño e implementación de los métodos basados en las arquitecturas básicas de aprendizaje profundo, tales como las redes neuronales convolucionales.
Marzo 2020 Marzo 2020
16 4 Experimentación y análisis: básico
Ejecución de pruebas con las arquitecturas básicas de aprendizaje profundo sobre las tareas seleccionadas, tales como la clasificación afectiva de textos, análisis de subjetividad y análisis de la estructura del texto.
Abril 2020 Abril 2020
17 4 Implementación de memorias
Adición de los mecanismos de memoria a los módulos desarrollados. Se evaluará la conveniencia de implementación de las memorias LSTM, GRU y sus variantes, tanto unidireccionales como bidireccionales.
Mayo 2020 Mayo 2020
18 4 Experimentación y análisis: memorias
Ejecución de las pruebas con los módulos mejorados sobre el conjunto de datos, para su comparación con los resultados obtenidos con los módulos básicos.
Junio 2020 Junio 2020
19 4 Implementación de mecanismo de atención
Adición del mecanismo de atención a la arquitectura desarrollada, para aumentar su desempeño a través de enfatizar los rangos de los datos más relevantes para la tarea.
Julio 2020 Julio 2020
20 4 Experimentación y análisis: atención
Ejecución de las pruebas con la arquitectura que incluye el mecanismo de atención, para su comparación con la arquitectura básica y la arquitectura con la memoria. Estudio de ablación.
Agosto 2020 Agosto 2020
21 4 Implementación de arquitecturas avanzadas
Implementación de los rasgos avanzados en la arquitectura desarrollada, tales como fusión jerárquica de los rasgos de diferentes enunciados, oraciones o párrafos.
Septiembre 2020 Septiembre 2020
22 5 Pruebas y evaluación
Realización de pruebas con la arquitectura desarrollada, evaluación de sus fortalezas y debilidades, análisis de errores y comparación.
Octubre 2020 Octubre 2020
23 4 Aplicación a varias tareas
Aplicación de la arquitectura desarrollada a diferentes tareas de análisis de lenguaje, para su comparación con el estado de arte en cada tarea y determinación de sus áreas de oportunidad y posibles mejoras.
Noviembre 2020 Noviembre 2020
24 4 Documentación final
Preparación de las descripciones de los programas realizados y de los informes del proyecto; avance en la escritura de las tesis correspondientes.
Diciembre 2020 Diciembre 2020
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  El proyecto requiere el manejo de grandes volúmenes de información (de tamaño de varios terabytes de información) y mucha potencia de cálculo. Se prevé la compra de los consumibles para impresión y organización de la información, tales como cartuchos de tinta para impresora, discos de gran volumen para el resguardo de la información, incluidos los resultados de varios pasos del procesamiento de todo el corpus, es decir, varios terabytes por cada paso. Además, se prevé la compra de los consumibles permitidos para esta partida necesarios para el cómputo paralelo en los algoritmos de aprendizaje profundo, tales como las tarjetas GPU para el aprendizaje profundo, tarjetas de memoria de gran capacidad y otros consumibles informáticos.Además, se prevé la compra de libros. 120000   
3000  Se prevén estancias de investigación de los participantes del proyecto en los grupos líderes nacionales e internacionales. Además se prevén viajes a congresos nacionales y/o internacionales para la publicación y difusión de los resultados del proyecto. Por ejemplo, el transporte y viáticos a un congreso en Europa cuesta 30 mil pesos, con lo cual el presupuesto solicitado alcanzaría para un viaje a un congreso por año. 60000   
4000  Se planean viajes de los estudiantes a los congresos de más alto prestigio en el área correspondiente al tema del proyecto. En los congresos de primera, es común que la inscripción sea de hasta 10 mil pesos, con lo cual el presupuesto solicitado alcanzaría para pagar una inscripción del alumno participante al congreso por año. 20000   
5000      
7000      
Total:  $ 200000