FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACIÓN
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROYECTO DE INICIACIÓN
PROYECTO CON IMPACTO CyT
Información General del Proyecto de Investigación
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Sección. División o Departamento
Registro asignado por la SIP: 20144534
Datos del director(a) del Proyecto de investigación:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado académico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Teléfono oficina (Ext): 56544
Correo electrónico
Teléfono particular: 55-1810-4587
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología
Ciencias Sociales
Ciencias Naturales
Ciencias Agrícolas
Ciencias Médicas
Humanidades
X
Educación
Clasificación CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigación:
Básica
X
Aplicada
Autoequipamiento
Desarrollo Tecnológico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
X
Objetivo de desarrollo sostenible: ---
Red a la que pertenece el proyecto: ---
¿A que tipo de investigación pertenece el proyecto:
Investigación científica
investigación tecnológica
Posgrado
X
¿A que tipo de avance contribuye el proyecto: ---
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve,
conciso y representativo del tema central de investigación
La presentación deberá hacerse
de acuerdo a la siguiente estructura:
1. Descripción del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
4
Congresos
0
1
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
1
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
2
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
4
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 2
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 3
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribución
del presupuesto solicitado (anexar): honorarios (sólo centros
foráneos), materiales y suministros, servicios generales
y equipamiento (anexar cotización)
3.1 ¿Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigación?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
Número
Nombre
Actividad específica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Grigori Sidorov -
SNI III. Desarrollo de los métodos de análisis de texto basados en los n-gramas sintácticos.
3
Ildar Batyrshin -
SNI II. Desarrollo de los métodos para el análisis de texto y clasificación basados en estadísticas y aprendizaje de máquina.
4
Liliana Chanona Hernández
Desarrollo e implementación de los métodos de análisis de texto basados en la sintaxis y las estadísticas de n-gramas.
5
Olga Kolesnikova -
Desarrollo de los métodos de desambiguación basados en funciones léxicas.
4.2 Alumnos participantes
Número
Nombre
Status*
Actividad específica a desarrollar
1
IVAN OMAR CRUZ GARCIA
PF
Participación en metas.
2
Ivan Omar Cruz García
TS
Desarrollo e implementación de los métodos de la definición de la polaridad y de los aspectos de opinión en los textos.
3
Cristina Alicia Díaz Jiménez
TS
Desarrollo e implementación de los métodos para la detección de las relaciones anafóricas y de correferencia en los textos.
4
HELENA MONTSERRAT GÓMEZ ADORNO
PF
Participación en metas.
5
Hugo Librado
TS
Desarrollo e implementación de los métodos para el análisis de los textos en las redes sociales.
6
Reyna Melara Abarca
TS
Desarrollo e implementación de los métodos para la desambiguación de los sentidos de las palabras usando los datos de Wikipedia.
7
Fernando Monroy Tenorio
TS
Desarrollo e implementación de los métodos para la contextualización de las palabras subjetivas y afectivas para la detección contextual de la polaridad.
8
Rodrigo Gabino Ramírez Moreno
TS
Desarrollo e implementación de los métodos para el análisis y composición afectiva de sonidos.
9
Miguel Ángel Sánchez Pérez
TS
Desarrollo e implementación de los métodos para la medición de similitud entre los textos y determinación de autoría o plagio de los textos.
10
FRANCISCO VIVEROS JIMENEZ
PF
Participación en metas.
11
Francisco Viveros Jiménez
TS
Desarrollo e implementación de los métodos para la desambiguación automática de los sentidos de las palabras.
12
Alisa Zhila
TS
Desarrollo e implementación de los métodos para la extracción automática de los hechos de los textos en español.
Investigación bibliográfica Se preparan las bases para la identificación en el estado del arte de las soluciones existentes a los problemas relevantes para el proyecto y los métodos útiles para el mismo.
Enero 2014
Enero 2014
2
10
Extracción automática de los hechos de los textos en español Mientras un texto en español es una cadena de palabras con semántica no estructurada, para el análisis de su contenido se dividirá en los hechos elementales, tales como sujeto, acción y objeto, según las definiciones aceptadas en el área de la extracción de información abierta (open information extraction).
Febrero 2014
Febrero 2014
3
10
Extracción de los aspectos explícitos de opinión en los textos En los textos con una opinión expresada, identificar automáticamente del cuál aspecto específico del tema se expresa la opinión. En esta etapa, se aplica a los casos cuando el aspecto está expresado explícitamente en el texto y sólo se necesita identificar las palabras correspondientes.
Marzo 2014
Marzo 2014
4
10
Extracción de los aspectos implícitos de opinión en los textos De manera similar al punto anterior, se trata de identificación automática del aspecto de opinión en un texto. A diferencia del punto anterior, en este caso la tarea es más complicada ya que se trata de los casos cuando el aspecto no está especificado explícitamente en el texto sino se debe inferir del contexto.
Abril 2014
Abril 2014
5
10
Clasificación de aspectos en base a dominio Las tareas de la extracción de los aspectos de opiniones dependen crucialmente del dominio temático del documento. Se propone efectuar clasificación supervisada de las palabras que indican los aspectos en los textos, en base al dominio temático del objeto de opinión.
Mayo 2014
Mayo 2014
6
10
Desambiguación de los sentidos de las palabras Ya que las palabras pueden tener diferente significado en diferentes contextos y entonces indicar diferentes opiniones o aspectos de opinión, se propone experimentar con los métodos para la desambiguación contextual de los sentidos de las palabras, específicamente con los métodos de la llamada bolsa de palabras con diferente ajuste de la ventana y selección del contexto.
Junio 2014
Julio 2014
7
10
Detección de las relaciones anafóricas en los textos En la mayoría de los casos los objetos de opinión no están especificados con sus nombres completos en el texto sino con pronombres u otras construcciones anafóricas y de correferencia, haciendo referencia a sus menciones anteriores. Se aplicarán los métodos para la resolución de correferencia para identificar los nombres de los objetos de opinión.
Agosto 2014
Agosto 2014
8
10
Análisis y extracción de los conceptos Los conceptos incluyen las llamadas expresiones multipalabra que refieren a un objeto o idea usando varias palabras, de tal manera que ninguna de éstas por separado no tiene el significado correspondiente. La tarea consiste en identificar tales conceptos automáticamente en el texto para tratarlos como unidades semánticas en la extracción de los hechos y en la identificación de opiniones y aspectos
Septiembre 2014
Septiembre 2014
9
10
Aplicación de los métodos de Implicación textual Para entender e interpretar la información en forma textual es importante poder razonar sobre ella automáticamente, ya que en muchos casos la iformación viene en forma implicita. Es aún más importante para determinar opiniones promedias en las redes sociales. Se desarrollarán aplicaciones correspondientes de los métodos para el reconocimiento automático de la implicación textual.
Octubre 2014
Octubre 2014
10
10
Similitud entre los textos y determinación de autoría Para el análisis de las opiniones en redes sociales es importante desarrollar los métodos para la identificación de los textos o expresiones similares, que expresan aproximadamente la misma idea o refieren al mismo concepto. Parte de la tarea es la identificación de los textos escritos por el mismo autor, así como los casos cuando un autor copia al otro. Se desarrollarán los métodos correspondient
Noviembre 2014
Noviembre 2014
11
5
Preparación de las publicaciones, tesis e informe Finalmente, se efectuarán las actividades para la documentación de los resultados de la investigación, preparación de las publicaciones, incluidas las tesis, y graduación de los tesistas partifipantes (algunos se graduarán después de la vigencia del proyecto).
Diciembre 2014
Diciembre 2014
Porcentaje:
100 %
Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado
Capítulo
Descripción / Concepto
Total (Pesos)
2000
Compra de las partes y repuestos para los equipos de cómputo usados por los estudiantes y profesores participantes. Específicamente, la actualización de las memorias y los discos duros de los equipos, dado que en muchas de las tareas del proyecto se requerirá el trabajo con grandes volúmenes de información. Compra de repuestos necesarios para la reparación y actualización de las computadoras usadas para el proyecto, dado que el proyecto es principalmente sobre el desarrollo de los métodos computacionales. Compra del tóner para las impresiones.
40000
3000
Los servicios de reparación, impresión, encuadernación. Los servicios de informantes para el marcaje de los textos y composición de los diccionarios y bases de datos correspondientes: en el desarrollo de los diccionarios relacionados con las emociones humanas y personalidad se usan las opiniones de cientos de informantes, los cuales se obtienen a través de cuestionarios complejos y laboriosos. Adquisición de los corpus y diccionarios existentes, para no duplicar partes de este trabajo. Presentación de los resultados en los seminarios y congresos.
20000
4000
Colaboramos sobre los temas de este proyecto con varias instituciones nacionales (UNAM en el DF, INAOE en Puebla, UAEM en Toluca, entre otras) y varias internacionales (U. Jadavpur en la India, U. Nacional de Singapur, U. de Stirling en Inglaterra, MIT y U. de Norte de Texas en EE.UU., U. Nacional de Moscú en Rusia, U. Egea en Grecia, grupos en Austria, Alemania, Francia). Consideramos necesaria la movilidad de los estudiantes tanto entre los grupos nacionales como, de ser posible, visitas internacionales a los grupos mencionados. Las visitas a los grupos de nuestros colaboradores internacionales serán de gran utilidad para el horizonte científico de nuestros estudiantes de Doctorado.