FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Laboratorio de Lenguaje Natural y Procesamiento de Texto
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20144534
Datos del director(a) del Proyecto de investigaci�n:
Gelbukh
-
Alexander
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: GEAL620912
CURP: GEXA620912HNELXL08
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56544
Correo electrónico
Tel�fono particular: 55-1810-4587
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
X
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
X
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Alexander Gelbukh -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
4
Congresos
0
1
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
1
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
2
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
4
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Alexander Gelbukh -
Director del proyecto
2
Grigori Sidorov -
SNI III. Desarrollo de los métodos de análisis de texto basados en los n-gramas sintácticos.
3
Ildar Batyrshin -
SNI II. Desarrollo de los métodos para el análisis de texto y clasificación basados en estadísticas y aprendizaje de máquina.
4
Liliana Chanona Hernández
Desarrollo e implementación de los métodos de análisis de texto basados en la sintaxis y las estadísticas de n-gramas.
5
Olga Kolesnikova -
Desarrollo de los métodos de desambiguación basados en funciones léxicas.
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
IVAN OMAR CRUZ GARCIA
PF
Participación en metas.
2
Ivan Omar Cruz García
TS
Desarrollo e implementación de los métodos de la definición de la polaridad y de los aspectos de opinión en los textos.
3
Cristina Alicia Díaz Jiménez
TS
Desarrollo e implementación de los métodos para la detección de las relaciones anafóricas y de correferencia en los textos.
4
HELENA MONTSERRAT GÓMEZ ADORNO
PF
Participación en metas.
5
Hugo Librado
TS
Desarrollo e implementación de los métodos para el análisis de los textos en las redes sociales.
6
Reyna Melara Abarca
TS
Desarrollo e implementación de los métodos para la desambiguación de los sentidos de las palabras usando los datos de Wikipedia.
7
Fernando Monroy Tenorio
TS
Desarrollo e implementación de los métodos para la contextualización de las palabras subjetivas y afectivas para la detección contextual de la polaridad.
8
Rodrigo Gabino Ramírez Moreno
TS
Desarrollo e implementación de los métodos para el análisis y composición afectiva de sonidos.
9
Miguel Ángel Sánchez Pérez
TS
Desarrollo e implementación de los métodos para la medición de similitud entre los textos y determinación de autoría o plagio de los textos.
10
FRANCISCO VIVEROS JIMENEZ
PF
Participación en metas.
11
Francisco Viveros Jiménez
TS
Desarrollo e implementación de los métodos para la desambiguación automática de los sentidos de las palabras.
12
Alisa Zhila
TS
Desarrollo e implementación de los métodos para la extracción automática de los hechos de los textos en español.
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
5
Investigación bibliográfica Se preparan las bases para la identificación en el estado del arte de las soluciones existentes a los problemas relevantes para el proyecto y los métodos útiles para el mismo.
Enero 2014
Enero 2014
2
10
Extracción automática de los hechos de los textos en español Mientras un texto en español es una cadena de palabras con semántica no estructurada, para el análisis de su contenido se dividirá en los hechos elementales, tales como sujeto, acción y objeto, según las definiciones aceptadas en el área de la extracción de información abierta (open information extraction).
Febrero 2014
Febrero 2014
3
10
Extracción de los aspectos explícitos de opinión en los textos En los textos con una opinión expresada, identificar automáticamente del cuál aspecto específico del tema se expresa la opinión. En esta etapa, se aplica a los casos cuando el aspecto está expresado explícitamente en el texto y sólo se necesita identificar las palabras correspondientes.
Marzo 2014
Marzo 2014
4
10
Extracción de los aspectos implícitos de opinión en los textos De manera similar al punto anterior, se trata de identificación automática del aspecto de opinión en un texto. A diferencia del punto anterior, en este caso la tarea es más complicada ya que se trata de los casos cuando el aspecto no está especificado explícitamente en el texto sino se debe inferir del contexto.
Abril 2014
Abril 2014
5
10
Clasificación de aspectos en base a dominio Las tareas de la extracción de los aspectos de opiniones dependen crucialmente del dominio temático del documento. Se propone efectuar clasificación supervisada de las palabras que indican los aspectos en los textos, en base al dominio temático del objeto de opinión.
Mayo 2014
Mayo 2014
6
10
Desambiguación de los sentidos de las palabras Ya que las palabras pueden tener diferente significado en diferentes contextos y entonces indicar diferentes opiniones o aspectos de opinión, se propone experimentar con los métodos para la desambiguación contextual de los sentidos de las palabras, específicamente con los métodos de la llamada bolsa de palabras con diferente ajuste de la ventana y selección del contexto.
Junio 2014
Julio 2014
7
10
Detección de las relaciones anafóricas en los textos En la mayoría de los casos los objetos de opinión no están especificados con sus nombres completos en el texto sino con pronombres u otras construcciones anafóricas y de correferencia, haciendo referencia a sus menciones anteriores. Se aplicarán los métodos para la resolución de correferencia para identificar los nombres de los objetos de opinión.
Agosto 2014
Agosto 2014
8
10
Análisis y extracción de los conceptos Los conceptos incluyen las llamadas expresiones multipalabra que refieren a un objeto o idea usando varias palabras, de tal manera que ninguna de éstas por separado no tiene el significado correspondiente. La tarea consiste en identificar tales conceptos automáticamente en el texto para tratarlos como unidades semánticas en la extracción de los hechos y en la identificación de opiniones y aspectos
Septiembre 2014
Septiembre 2014
9
10
Aplicación de los métodos de Implicación textual Para entender e interpretar la información en forma textual es importante poder razonar sobre ella automáticamente, ya que en muchos casos la iformación viene en forma implicita. Es aún más importante para determinar opiniones promedias en las redes sociales. Se desarrollarán aplicaciones correspondientes de los métodos para el reconocimiento automático de la implicación textual.
Octubre 2014
Octubre 2014
10
10
Similitud entre los textos y determinación de autoría Para el análisis de las opiniones en redes sociales es importante desarrollar los métodos para la identificación de los textos o expresiones similares, que expresan aproximadamente la misma idea o refieren al mismo concepto. Parte de la tarea es la identificación de los textos escritos por el mismo autor, así como los casos cuando un autor copia al otro. Se desarrollarán los métodos correspondient
Noviembre 2014
Noviembre 2014
11
5
Preparación de las publicaciones, tesis e informe Finalmente, se efectuarán las actividades para la documentación de los resultados de la investigación, preparación de las publicaciones, incluidas las tesis, y graduación de los tesistas partifipantes (algunos se graduarán después de la vigencia del proyecto).
Diciembre 2014
Diciembre 2014
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Compra de las partes y repuestos para los equipos de cómputo usados por los estudiantes y profesores participantes. Específicamente, la actualización de las memorias y los discos duros de los equipos, dado que en muchas de las tareas del proyecto se requerirá el trabajo con grandes volúmenes de información. Compra de repuestos necesarios para la reparación y actualización de las computadoras usadas para el proyecto, dado que el proyecto es principalmente sobre el desarrollo de los métodos computacionales. Compra del tóner para las impresiones.
40000
3000
Los servicios de reparación, impresión, encuadernación. Los servicios de informantes para el marcaje de los textos y composición de los diccionarios y bases de datos correspondientes: en el desarrollo de los diccionarios relacionados con las emociones humanas y personalidad se usan las opiniones de cientos de informantes, los cuales se obtienen a través de cuestionarios complejos y laboriosos. Adquisición de los corpus y diccionarios existentes, para no duplicar partes de este trabajo. Presentación de los resultados en los seminarios y congresos.
20000
4000
Colaboramos sobre los temas de este proyecto con varias instituciones nacionales (UNAM en el DF, INAOE en Puebla, UAEM en Toluca, entre otras) y varias internacionales (U. Jadavpur en la India, U. Nacional de Singapur, U. de Stirling en Inglaterra, MIT y U. de Norte de Texas en EE.UU., U. Nacional de Moscú en Rusia, U. Egea en Grecia, grupos en Austria, Alemania, Francia). Consideramos necesaria la movilidad de los estudiantes tanto entre los grupos nacionales como, de ser posible, visitas internacionales a los grupos mencionados. Las visitas a los grupos de nuestros colaboradores internacionales serán de gran utilidad para el horizonte científico de nuestros estudiantes de Doctorado.