FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN
(Enero 2014 - Diciembre 2014)

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
Información General del Proyecto de Investigación
  CIC    Laboratorio de Lenguaje Natural y Procesamiento de Texto 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Extracción de hechos y desambiguación en la detección de opiniones y polaridad en el texto

Registro asignado por la SIP:  20144534     
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  II  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología          Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades     X   
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información  
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Dada la enorme cantidad de los textos generados diariamente por los usuarios de las redes sociales e Internet, la detección de las opiniones y polaridad (opiniones positivas o negativas) en los textos tales como blogs y microblogs (Twitter), redes sociales y artículos en los periódicos es de suma importancia para diversos sectores de la economía y la sociedad. Implica mejores ingresos para los negocios: con este tipo de tecnologías pueden detectar cuáles productos, o qué aspectos de los productos específicos, satisfacen o no satisfacen a millones de sus clientes y compradores. Implica mejor democracia: los partidos políticos y los gobiernos pueden en tiempo real conocer las opiniones de los ciudadanos sobre las acciones gubernamentales o aspectos de la vida social o política. Finalmente, implica mejor calidad de vida a los ciudadanos y los usuarios: directamente a través de los sistemas de recomendación en línea de los mejores productos y servicios, e indirectamente a través de las mejoras que las empresas y los gobiernos hacen a sus productos y servicios gracias a la información sobre las necesidades de sus usuarios. En este proyecto se desarrollarán los métodos necesarios para tareas parciales de la minería de opiniones. Primero, el texto se estructurará de manera automática en los hechos elementales que pueden expresar opiniones: ¿qué se dice? Luego, se determinarán los aspectos de la opinión: ¿sobre qué se opina? Luego, la polaridad de la opinión: ¿se opina positiva o negativamente? Estas tareas involucran diferentes actividades de la desambiguación de los sentidos de las palabras y los pronombres, como se detalla en los objetivos específicos y las metas del proyecto. En el marco del proyecto se desarrollarán los algoritmos, los métodos y los recursos léxicos para tales procedimientos automáticos. Se experimentará con los textos en español y en inglés.

1.2 Objetivo general
Desarrollar los métodos e implementar los programas para la extracción de hechos y desambiguación a varios niveles léxicos (de los sentidos, de correferencia, de exprsiones multipalabra) en la detección de opiniones y la polaridad en el texto en español e inglés.

1.3 Objetivos específicos
Desarrollar los métodos e implementar los programas para:

la extracción automática de los hechos;

la extracción de los aspectos explícitos e implícitos de opinión en los textos y su clasificación;

la desambiguación de los sentidos de las palabras y la anáfora;

la extracción de los conceptos;

la detección de similitud.

Graduación de estudiantes de posgrado.

Publicaciones.

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Cuenta con financiamiento externo?
No    X   Si               

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Grigori Sidorov -
  
SNI III. Desarrollo de los métodos de análisis de texto basados en los n-gramas sintácticos.
3 Ildar Batyrshin -
  
SNI II. Desarrollo de los métodos para el análisis de texto y clasificación basados en estadísticas y aprendizaje de máquina.
4 Liliana Chanona Hernández
  
Desarrollo e implementación de los métodos de análisis de texto basados en la sintaxis y las estadísticas de n-gramas.
5 Olga Kolesnikova -
  
Desarrollo de los métodos de desambiguación basados en funciones léxicas.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 IVAN OMAR CRUZ GARCIA PF Participación en metas.
2 Ivan Omar Cruz García TS Desarrollo e implementación de los métodos de la definición de la polaridad y de los aspectos de opinión en los textos.
3 Cristina Alicia Díaz Jiménez TS Desarrollo e implementación de los métodos para la detección de las relaciones anafóricas y de correferencia en los textos.
4 HELENA MONTSERRAT GÓMEZ ADORNO PF Participación en metas.
5 Hugo Librado  TS Desarrollo e implementación de los métodos para el análisis de los textos en las redes sociales.
6 Reyna Melara Abarca TS Desarrollo e implementación de los métodos para la desambiguación de los sentidos de las palabras usando los datos de Wikipedia.
7 Fernando Monroy Tenorio TS Desarrollo e implementación de los métodos para la contextualización de las palabras subjetivas y afectivas para la detección contextual de la polaridad.
8 Rodrigo Gabino Ramírez Moreno TS Desarrollo e implementación de los métodos para el análisis y composición afectiva de sonidos.
9 Miguel Ángel Sánchez Pérez TS Desarrollo e implementación de los métodos para la medición de similitud entre los textos y determinación de autoría o plagio de los textos.
10 FRANCISCO VIVEROS JIMENEZ PF Participación en metas.
11 Francisco Viveros Jiménez TS Desarrollo e implementación de los métodos para la desambiguación automática de los sentidos de las palabras.
12 Alisa Zhila  TS Desarrollo e implementación de los métodos para la extracción automática de los hechos de los textos en español.
13 ALISA ZHILA - PF Participación en metas.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   (Enero 2014 - Diciembre 2014)

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación bibliográfica
Se preparan las bases para la identificación en el estado del arte de las soluciones existentes a los problemas relevantes para el proyecto y los métodos útiles para el mismo.
Enero 2014 Enero 2014
2 10 Extracción automática de los hechos de los textos en español
Mientras un texto en español es una cadena de palabras con semántica no estructurada, para el análisis de su contenido se dividirá en los hechos elementales, tales como sujeto, acción y objeto, según las definiciones aceptadas en el área de la extracción de información abierta (open information extraction).
Febrero 2014 Febrero 2014
3 10 Extracción de los aspectos explícitos de opinión en los textos
En los textos con una opinión expresada, identificar automáticamente del cuál aspecto específico del tema se expresa la opinión. En esta etapa, se aplica a los casos cuando el aspecto está expresado explícitamente en el texto y sólo se necesita identificar las palabras correspondientes.
Marzo 2014 Marzo 2014
4 10 Extracción de los aspectos implícitos de opinión en los textos
De manera similar al punto anterior, se trata de identificación automática del aspecto de opinión en un texto. A diferencia del punto anterior, en este caso la tarea es más complicada ya que se trata de los casos cuando el aspecto no está especificado explícitamente en el texto sino se debe inferir del contexto.
Abril 2014 Abril 2014
5 10 Clasificación de aspectos en base a dominio
Las tareas de la extracción de los aspectos de opiniones dependen crucialmente del dominio temático del documento. Se propone efectuar clasificación supervisada de las palabras que indican los aspectos en los textos, en base al dominio temático del objeto de opinión.
Mayo 2014 Mayo 2014
6 10 Desambiguación de los sentidos de las palabras
Ya que las palabras pueden tener diferente significado en diferentes contextos y entonces indicar diferentes opiniones o aspectos de opinión, se propone experimentar con los métodos para la desambiguación contextual de los sentidos de las palabras, específicamente con los métodos de la llamada bolsa de palabras con diferente ajuste de la ventana y selección del contexto.
Junio 2014 Julio 2014
7 10 Detección de las relaciones anafóricas en los textos
En la mayoría de los casos los objetos de opinión no están especificados con sus nombres completos en el texto sino con pronombres u otras construcciones anafóricas y de correferencia, haciendo referencia a sus menciones anteriores. Se aplicarán los métodos para la resolución de correferencia para identificar los nombres de los objetos de opinión.
Agosto 2014 Agosto 2014
8 10 Análisis y extracción de los conceptos
Los conceptos incluyen las llamadas expresiones multipalabra que refieren a un objeto o idea usando varias palabras, de tal manera que ninguna de éstas por separado no tiene el significado correspondiente. La tarea consiste en identificar tales conceptos automáticamente en el texto para tratarlos como unidades semánticas en la extracción de los hechos y en la identificación de opiniones y aspectos
Septiembre 2014 Septiembre 2014
9 10 Aplicación de los métodos de Implicación textual
Para entender e interpretar la información en forma textual es importante poder razonar sobre ella automáticamente, ya que en muchos casos la iformación viene en forma implicita. Es aún más importante para determinar opiniones promedias en las redes sociales. Se desarrollarán aplicaciones correspondientes de los métodos para el reconocimiento automático de la implicación textual.
Octubre 2014 Octubre 2014
10 10 Similitud entre los textos y determinación de autoría
Para el análisis de las opiniones en redes sociales es importante desarrollar los métodos para la identificación de los textos o expresiones similares, que expresan aproximadamente la misma idea o refieren al mismo concepto. Parte de la tarea es la identificación de los textos escritos por el mismo autor, así como los casos cuando un autor copia al otro. Se desarrollarán los métodos correspondient
Noviembre 2014 Noviembre 2014
11 5 Preparación de las publicaciones, tesis e informe
Finalmente, se efectuarán las actividades para la documentación de los resultados de la investigación, preparación de las publicaciones, incluidas las tesis, y graduación de los tesistas partifipantes (algunos se graduarán después de la vigencia del proyecto).
Diciembre 2014 Diciembre 2014
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de las partes y repuestos para los equipos de cómputo usados por los estudiantes y profesores participantes. Específicamente, la actualización de las memorias y los discos duros de los equipos, dado que en muchas de las tareas del proyecto se requerirá el trabajo con grandes volúmenes de información. Compra de repuestos necesarios para la reparación y actualización de las computadoras usadas para el proyecto, dado que el proyecto es principalmente sobre el desarrollo de los métodos computacionales. Compra del tóner para las impresiones. 40000   
3000  Los servicios de reparación, impresión, encuadernación. Los servicios de informantes para el marcaje de los textos y composición de los diccionarios y bases de datos correspondientes: en el desarrollo de los diccionarios relacionados con las emociones humanas y personalidad se usan las opiniones de cientos de informantes, los cuales se obtienen a través de cuestionarios complejos y laboriosos. Adquisición de los corpus y diccionarios existentes, para no duplicar partes de este trabajo. Presentación de los resultados en los seminarios y congresos. 20000   
4000  Colaboramos sobre los temas de este proyecto con varias instituciones nacionales (UNAM en el DF, INAOE en Puebla, UAEM en Toluca, entre otras) y varias internacionales (U. Jadavpur en la India, U. Nacional de Singapur, U. de Stirling en Inglaterra, MIT y U. de Norte de Texas en EE.UU., U. Nacional de Moscú en Rusia, U. Egea en Grecia, grupos en Austria, Alemania, Francia). Consideramos necesaria la movilidad de los estudiantes tanto entre los grupos nacionales como, de ser posible, visitas internacionales a los grupos mencionados. Las visitas a los grupos de nuestros colaboradores internacionales serán de gran utilidad para el horizonte científico de nuestros estudiantes de Doctorado. 30000   
5000      
7000      
Total:  $ 90000