FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACI�N
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROPUESTA DE ESTUDIO
Informaci�n General del Proyecto de Investigaci�n
CIC
Departamento de Ciencias en la Computación
Escuela, Centro o Unidad
Secci�n. Divisi�n o Departamento
Registro asignado por la SIP: 20181849
Datos del director(a) del Proyecto de investigaci�n:
Sidorov
-
Grigori
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado acad�mico: Doctorado
Horas de nombramiento: 40
RFC: SIGR651028
CURP: SIXG651028HNEDXR09
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Tel�fono oficina (Ext): 56518
Correo electrónico
Tel�fono particular: 5591887293
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agr�colas
Ciencias M�dicas
Humanidades
Educación
Clasificaci�n CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigaci�n:
B�sica
X
Aplicada
Autoequipamiento
Desarrollo Tecnol�gico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
X
Red a la que pertenece ó podría pertenecer el proyecto: ---
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica
X
Investigación Tecnológica
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:
Desarrollo de la enseñanza:
Aprovechamiento de los recursos naturales y materiales:
Scopus: ---
Orcid: ---
Grigori Sidorov -
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve,
conciso y representativo del tema central de investigaci�n
La presentaci�n deber� hacerse
de acuerdo a la siguiente estructura:
1. Descripci�n del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
2
Congresos
0
1
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
3
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 2
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos a�o 3
Nacional
Internacional
Nacional
Internacional
Art�culo de Divulgaci�n
0
0
Art�culo Cient�fico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invenci�n
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribuci�n
del presupuesto solicitado (anexar): honorarios (s�lo centros
for�neos), materiales y suministros, servicios generales
y equipamiento (anexar cotizaci�n)
3.1 �Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigaci�n?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
N�mero
Nombre
Actividad espec�fica a desarrollar
1
Grigori Sidorov -
Director del proyecto
2
Alexander Gelbukh -
Coordinación y supervisión de la aplicación de los métodos de aprendizaje automático adecuados al problema de extracción de detección de eventos clínicos
3
Ildar Batyrshin -
Coordinación y supervisión de los métodos de aprendizaje automático, extracción de caracteristicas, selección de la metodología de evaluación y desarrollo.
4
Obdulia Pichardo Lagunas
Coordinación de desarrollo de software de obtención de n-gramas sintácticos continuos y no continuos de textos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características
4.2 Alumnos participantes
N�mero
Nombre
Status*
Actividad espec�fica a desarrollar
1
CAROLINA FOCIL ARIAS
PF
participación en metas
2
Carolina Fócil Arias
TS
Pre-procesar el corpus médico. Construir los árboles sintácticos. Recorrer los árboles sintácticos. Realizar experimentos .
3
Helelna Gómez Adorno
TS
Extracción de los n-grmas sintácticos de los textos médicos.
4
RICARDO LÓPEZ LEÓN
PF
participación en metas
5
Navonil Majumder .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
6
Christian Maldonado .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
7
Ilia Markov .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
8
Carolina Martín del Campo Rodríguez
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
9
ALEJANDRA MIRANDA VEGA
PF
participación en metas
10
Eduardo Rene Rodríguez Avila
TS
Aplicación de los métodos de preprocesamiento a los textos médicos.
11
Miguel Ángel Sánchez Pérez
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
12
Francisco Gabriel Sandoval .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
13
Segun Taofeek Aroyehun
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
14
Jorge Luis Zúñiga Hernández
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
5.Programaci�n de Actividades de Investigaci�n
N�mero de meta
Valor % de cada meta
Descripci�n de actividades
Mes de inicio
Mes de terminaci�n
1
5
Obtener un corpus médico Solicitar y firmar acuerdo de privacidad con el equipo de SemEval para obtener el corpus clínico. Los datos contienen textos clínicos de pacientes que sufren cáncer de colón, y los reportes fueron realizados por médicos de la clínica Mayo, cuya información está basada en dos tipos de textos: clínicos y patológicos
Enero 2018
Febrero 2018
2
5
Analizar e identificar el conjunto de validación, prueba y entrenamiento. Si el conjunto de datos obtenido se encuentra divido en los subconjuntos de entrenamiento, validación y prueba, comenzar el análisis de los datos. De otra forma, desarrollar un método que permita dividir el conjunto de datos para obtener los tres subconjuntos presentados anteriormente.
Febrero 2018
Marzo 2018
3
5
Pre-procesar el corpus médico. Aplicar técnicas de preprocesamiento que permitan separar los textos clínicos en secciones, sentencias y palabras. Así como eliminar elementos innecesarios como signos de puntuación
Febrero 2018
Marzo 2018
4
5
Pre-procesar el corpus médico a nivel sintáctico Instalar y aplicar el analizador de Stanford para conocer la relación sintáctica que existe entre las palabras. Guardar los resultados del analizador utilizado
Marzo 2018
Mayo 2018
5
5
Construir los árboles sintácticos Desarrollar los árboles sintácticos, con base en los resultados obtenidos por el analizador
Mayo 2018
Agosto 2018
6
10
Construir los n-gramas sintácticos y extraer características Desarrollar los algoritmos de extracción de características de los n-gramas sintácticos, y extraer las carácteristicas que comúnmente son usadas en el procesamiento de lenguaje natural: bolsa de palabras y bigramas
Junio 2018
Agosto 2018
7
10
Extraer carácterísitcas de cada elemento de la sentencia Considerar las características de cada elemento de la sentencia como: lema, pos, chunk, tipo, entre otras
Junio 2018
Agosto 2018
8
5
Recorrer los árboles sintácticos Aplicar el recorrido de los árboles sintácticos, para cambiar la estructura de las sentencias, a fin de cambiar la forma lineal en que los métodos de aprendizaje automático interpretan las sentencias
Junio 2018
Agosto 2018
9
15
Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los h Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los hiperparámetros de los modelos seleccionados usando sólo dos subconjuntos: entrenamiento y validación
Septiembre 2018
Octubre 2018
10
15
Realizar experimentos usando el subconjunto de prueba. Aplicar los métodos de aprendizaje automático seleccionado en el conjunto de prueba.
Septiembre 2018
Octubre 2018
11
5
Evaluar los resultados Evaluar los resultados considerando las diversas métricas de evaluación: precisión, recall, f-measure
Octubre 2018
Noviembre 2018
12
15
Elaborar publicaciones Realizar publicaciones y reportes de los resultados obtenidos
Octubre 2018
Diciembre 2018
Porcentaje:
100 %
Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado (para 2024 solo aplica capítulo 4000)
Cap�tulo
Descripci�n / Concepto
Total (Pesos)
2000
Compra de partes de las computadoras (memorias, discos duros, tarjetas GPU para procesamiento paralelo, etc.) para mejorar el equipo existente.
64000
3000
5,000 Para la asistencia a un congreso internacional para presentar los resultados del proyecto
30,000 Para publicacion de los resultados de proyectos en revistas