FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2013 - Diciembre 2013)

PROYECTO INDIVIDUAL   X   CORTO PLAZO (1 año)   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO (2 años)      
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Análisis de expresiones compuestas, afectividad y personalidad en los textos con los métodos de aprendizaje automático.

Registro asignado por la SIP:  20131702     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno   
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Con la integración en la esfera digital a través de Internet de una gran cantidad de personas de todos los estratos sociales, ocupaciones y niveles educativos, cada vez más importante es el análisis automático y reacción correcta de los sistemas informáticos a los factores humanos tales como emociones, opiniones y subjetividad, rasgos de personalidad, etc.

Existe un enorme interés de las empresas e instituciones gubernamentales a este tipo de análisis, debido a una gran gama de sus aplicaciones. Por ejemplo: 1) es vital para las empresas conocer la opinión de los consumidores sobre sus productos; 2) es vital para el gobierno conocer las opiniones y los sentimientos de los ciudadanos, lo que por primera ves realiza una democracia en tiempo real (el mecanismo clásico de la democracia permite la retroalimentación ciudadana efectiva sólo cada seis años).

Dentro del proyecto abarcaremos una gama de los métodos y aplicaciones que involucran el análisis de las opiniones, emociones y personalidad humana a través de los textos, así como aplicaciones colaterales, tales como la afectividad musical y recuperación de información con los métodos de grafos desarrollados en el proyecto.

Consideraremos tres aplicaciones del análisis de personalidad y opiniones: 1) análisis de la afectividad y personalidad en las redes sociales, 2) estudio de la afectividad y personalidad en los datos y géneros musicales y 3) generación de los resúmenes afectivos y semánticos. Para esto, desarrollaremos los métodos de análisis de expresiones compuestas y de aprendizaje automático, así como los recursos léxicos y los métodos basados en grafos, incluidos los grafos conceptuales. Estos métodos serán aplicados y evaluados en otras tareas que compartan estructura computacional con nuestro objeto de estudio principal, tales como la presentación resumida del contenido del texto y la búsqueda en los datos legales.

El proyecto se integrará ampliamente en la colaboración nacional e internacional.

1.2 Objetivo general
Desarrollo de los métodos, algoritmos, y los recursos léxicos para el análisis automático, minería y razonamiento automático sobre las opiniones, emociones y rasgos de personalidad en los textos en lenguaje natural (también con aplicación a los datos musicales), para varias aplicaciones, tales como minería de opiniones, detección de autoría, presentación resumida y recuperación de información.

1.3 Objetivos específicos
Algoritmos, prototipos de software, y bases de datos léxicos para el análisis y minería de afectividad, personalidad y opiniones en los textos en lenguaje natural y en los datos musicales usando métodos de aprendizaje automático, y las publicaciones correspondientes de alto prestigio.

2. Subproductos esperados (escribir número)
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   3 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   2  Programa de Radio y TV  0   0 
Conferencias o Ponencias  1   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   1 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   3 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Otras fuentes de financiamiento

3.1 ¿Cuenta con financiamiento externo?
No    X   Si        Institución u organismo       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Olga Kolesnikova -
  
Desarrollo de software y recursos léxicos para la interpretación de las expresiones compuestas.
3 Grigori Sidorov -
  
Desarrollo de los recursos léxicos indispensables para la detección de la afectividad en el texto.
4 Liliana Chanona Hernández
  
Desarrollo del software correspondiente a la determinación de las emociones en el texto.
5 Claudia Marina Vicario Solórzano
  
Desarrolló de software y recursos léxicos para el análisis de textos. Consultoría en las cuestiones de psicología.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Francisco Castillo Velázquez TS Desarrollo de los métodos para la detección del contenido afectivo de las palabras usando el aprendizaje automático con los n-gramas sintácticos.
2 IVAN OMAR CRUZ GARCIA PF Participación en metas.
3 Iván Omar Cruz García TS Desarrollo de los recursos léxicos y el software para el análisis de la afectividad y emociones en el texto.
4 Cristina Alicia Díaz Jiménez TS Desarrollo de los métodos para la resolución de las expresiones anafóricas usando los métodos desarrollados para la desambiguación de los sentidos de las palabras.
5 Martín Ibarra Romero TS Desarrollo de los métodos para la detección de similitud entre los textos en los lenguajes formales.
6 Alfredo López Monroy TS Aplicación de los métodos de análisis de grafos a los textos de documentos legales
7 Alaín Menchaca Reséndiz TS Investigación de los perfiles de personalidad de los usuarios de las redes sociales.
8 Sabino Miranda Jiménez TS Desarrollo de software para las operaciones con los grafos conceptuales.
9 Juan Pablo Posadas Durán TS Detección de estilo personal del texto a través de los n-gramas sintácticos.
10 Rodrigo Gabino Ramírez Moreno TS Desarrollo de los métodos relacionados con las gramáticas formales, y su aplicación al tratamiento de la afectividad en los datos musicales.
11 Alexandra Roshchina - TS Desarrollo de los métodos para el análisis de la personalidad y afectividad en los textos.
12 Miguel Ángel Sánchez Pérez TS Desarrollo de los métodos de identificación de similitud entre expresiones en el ambiente multilingüe.
13 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
14 Francisco Viveros Jiménez TS Desarrollo de los métodos para la desambiguación de los sentidos de las palabras y métodos de optimización para el aprendizaje automático.
15 Alisa Zhila - TS Desarrollo de los métodos para la extracción de los hechos elementales de los textos y su interpretación semántica.
16 ALISA ZHILA NULL PF Participación en metas.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2013 - Diciembre 2013)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación bibliográfica
Análisis de las publicaciones existentes en los campos relevantes para el presente proyecto.
Enero 2013 Enero 2013
2 10 Desarrollo de los recursos léxicos
Compilación de los diccionarios necesarios para los métodos del análisis de afectividad y personalidad, usando los métodos del aprendizaje automático.
Febrero 2013 Febrero 2013
3 10 Métodos basados en grafos y sus aplicaciones
Desarrollo de los esquemas del uso de grafos de varios tipos para el análisis del contenido del texto y para la búsqueda de la información relevante.
Marzo 2013 Marzo 2013
4 10 Grafos conceptuales
Análisis de la aplicabilidad del tipo especial de los grafos llamados grafos conceptuales, para la representación consisa del contenido del texto.
Abril 2013 Abril 2013
5 10 Generación de los resúmenes afectivos
Como una aplicación de los métodos desarrollados, se intentará el uso de los grafos conceptuales y las expresiones multipalabra (compuestos) a la expresión consisa del contenido semántico y/o afectivo del texto.
Mayo 2013 Mayo 2013
6 10 Expresiones compuestas
Dado que el contenido afectivo y semántico de las expresiones compuestas se difiere de la superimposición de los contenidos de sus partes, se analizará este fenómeno y sus efectos para las tareas consideradas en este proyecto.
Junio 2013 Junio 2013
7 10 Análisis de personalidad y opiniones
Desarrollo de los métodos de tratamiento automático de los datos de personalidad, afectividad y opinión en los textos.
Julio 2013 Julio 2013
8 5 Afectividad y personalidad en las redes sociales
Como una aplicación de los métodos y recursos desarrolados, se intentará el análisis de opiniones en las redes sociales y micro blogues.
Agosto 2013 Agosto 2013
9 10 Afectividad y personalidad en los datos musicales
Como otra aplicación de los métodos de análisis de sentimientos y afectividad, éstos se aplicarán a los datos musicales, para su clasificación y generación.
Septiembre 2013 Septiembre 2013
10 10 Aprendizaje automático
Se refinerán los métodos de aprendizaje automático usados en la presente investigación, con émfasis en el procedimiento de dos o más pasos y en el uso de los datos no marcados para el aprendizaje (del tipo de aprendizaje semisupervisado).
Octubre 2013 Octubre 2013
11 5 Verificación de los resultados y realización de ajustes
Una vez obtenidos los resultados principales del proyecto, éstos se analizarán, se detectarán las causas de los errores típicos y los factores de deficiencia, y se realizarán los ajustes pertinentes.
Noviembre 2013 Noviembre 2013
12 5 Preparación del informe y publicaciones
Finalmente, se realizará la documentación y se prepararán las tesis y los artículos derivados de los métodos y recursos desarrollados en el proyecto.
Diciembre 2013 Diciembre 2013
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto solicitado

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de las partes y repuestos para los equipos de cómputo usados por los estudiantes y profesores participantes. Específicamente, la actualización de las memorias y los discos duros de los equipos, dado que en muchas de las tareas del proyecto se requerirá el trabajo con grandes volúmenes de información. Por ejemplo, una de las tareas --la identificación de los hechos elementales-- se evaluará sobre un corpus de textos compuesto por nuestros colaboradores en Austria, el cual consiste de 40 terabytes de textos y por lo tanto requiere una cantidad considerable de discos y memoria para su resguardo y procesamiento. 40000   
3000  Los servicios de reparación, impresión, encuadernación. Los servicios de informantes para el marcaje de los textos y composición de los diccionarios: en el desarrollo de los diccionarios relacionados con las emociones humanas y personalidad se usan las opiniones de cientos de informantes, los cuales se obtienen a través de cuestionarios complejos y laboriosos. Adquisición de los corpus y diccionarios existentes, para no duplicar este trabajo; como ya se mencionó, son muy grandes (terabytes) y no pueden ser desarrollados en el laboratorio. Presentación de los resultados en los seminarios y congresos. 20000   
4000  Colaboramos sobre los temas de este proyecto con varias instituciones nacionales (UNAM en el DF, INAOE en Puebla, U. de Colima, ITESM en Monterrey, entre otras) y varias internacionales (U. Jadavpur en la India, U. Nacional de Singapur, U. de Stirling en Inglaterra, MIT y U. de Norte de Texas en EE.UU., U. Nacional de Moscú en Rusia, U. Egea en Grecia, grupos en Austria, Alemania, Francia). Consideramos necesaria la movilidad de los estudiantes tanto entre los grupos nacionales como, de ser posible, visitas internacionales a los grupos mencionados. Las visitas a los grupos de nuestros colaboradores internacionales serán de gran utilidad para el horizonte científico de nuestros estudiantes de Doctorado. 30000   
5000      
7000      
Total:  $ 90000