FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CAR�TULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32� Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACI�N

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Informaci�n General del Proyecto de Investigaci�n
  CIC    Departamento de Ciencias en la Computación 
Escuela, Centro o Unidad Secci�n. Divisi�n o Departamento
T�tulo
Extracción automática de eventos clínicos desde textos médicos

Registro asignado por la SIP:  20181849     
Datos del director(a) del Proyecto de investigaci�n:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado acad�mico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Tel�fono oficina (Ext):  56518  Correo electrónico Tel�fono particular:  5591887293 
Nivel acad�mico en el que se realizar� el Proyecto de Investigaci�n:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuaci�n se enuncian:
Ingenier�a y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agr�colas         
Ciencias M�dicas          Humanidades         
Educación         
Clasificaci�n CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigaci�n:
B�sica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnol�gico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     
Ninguno   X
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
¿A que tipo de investigación pertenece su proyecto?:
Investigación Científica     X    Investigación Tecnológica        
¿A que tipo de avance contribuye su proyecto? :
Avance del conocimiento:        Desarrollo de la enseñanza:        Aprovechamiento de los recursos naturales y materiales:       
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigaci�n
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El t�tulo deber� ser breve, conciso y representativo del tema central de investigaci�n


La presentaci�n deber� hacerse de acuerdo a la siguiente estructura:

1. Descripci�n del proyecto
1.1 Resumen
En este proyecto se propone desarrollar una metodología para el reconocimiento automático de eventos clínicos, donde un evento puede ser cualquier identificador que ayude en el tratamiento o en la detección de situaciones que son relevantes en el diagnóstico del paciente. Durante la metodología se plantea el uso de árboles sintácticos y algoritmos de aprendizaje automático con características no empleadas anteriormente, tales como n-gramas sintácticos. Además, con el uso de algoritmos de aprendizaje automático y de árboles sintácticos se puede implementar una nueva forma de asignación de etiquetas a una secuencia de datos, modificando la estructura de la sentencia.

1.2 Objetivo general
Desarrollar una metodología para la identificación automática de eventos clínicos que se encuentran presentes en textos médicos, es decir, detectar todas aquellas palabras como síntomas, procedimientos, entre otras, que estén relacionadas con el cáncer de colón; aplicando algoritmos de aprendizaje automático y técnicas de procesamiento de lenguaje natural

1.3 Objetivos específicos
1. Identificar los métodos de procesamiento de lenguaje natural y aprendizaje automático para la identificación de palabras que estén relacionadas con eventos clínicos.
2. Seleccionar uno o varios conjuntos de datos clínicos.
3. Pre-procesar del conjunto de datos.
4. Identificar los métodos que han sido aplicados en el estado del arte.
5. Desarrollar una metodología para la detección automátic

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   2 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   3 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 2
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos a�o 3
Nacional Internacional Nacional Internacional
Art�culo de Divulgaci�n  0   0  Art�culo Cient�fico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invenci�n  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribuci�n del presupuesto solicitado (anexar): honorarios (s�lo centros for�neos), materiales y suministros, servicios generales y equipamiento (anexar cotizaci�n)

3.1 �Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigaci�n?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

N�mero Nombre Actividad espec�fica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Coordinación y supervisión de la aplicación de los métodos de aprendizaje automático adecuados al problema de extracción de detección de eventos clínicos
3 Ildar Batyrshin -
  
Coordinación y supervisión de los métodos de aprendizaje automático, extracción de caracteristicas, selección de la metodología de evaluación y desarrollo.
4 Obdulia Pichardo Lagunas
  
Coordinación de desarrollo de software de obtención de n-gramas sintácticos continuos y no continuos de textos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características


  4.2 Alumnos participantes

N�mero Nombre Status* Actividad espec�fica a desarrollar
1 CAROLINA FOCIL ARIAS PF participación en metas
2 Carolina Fócil Arias TS Pre-procesar el corpus médico. Construir los árboles sintácticos. Recorrer los árboles sintácticos. Realizar experimentos .
3 Helelna Gómez Adorno TS Extracción de los n-grmas sintácticos de los textos médicos.
4 RICARDO LÓPEZ LEÓN PF participación en metas
5 Navonil Majumder . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
6 Christian Maldonado . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
7 Ilia Markov . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
8 Carolina Martín del Campo Rodríguez TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
9 ALEJANDRA MIRANDA VEGA PF participación en metas
10 Eduardo Rene Rodríguez Avila TS Aplicación de los métodos de preprocesamiento a los textos médicos.
11 Miguel Ángel Sánchez Pérez TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
12 Francisco Gabriel Sandoval . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
13 Segun Taofeek Aroyehun TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
14 Jorge Luis Zúñiga Hernández TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Pr�cticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programaci�n de Actividades de Investigaci�n   

N�mero
de meta
Valor % de
cada meta
Descripci�n de actividades Mes de inicio Mes de terminaci�n
1 5 Obtener un corpus médico
Solicitar y firmar acuerdo de privacidad con el equipo de SemEval para obtener el corpus clínico. Los datos contienen textos clínicos de pacientes que sufren cáncer de colón, y los reportes fueron realizados por médicos de la clínica Mayo, cuya información está basada en dos tipos de textos: clínicos y patológicos
Enero 2018 Febrero 2018
2 5 Analizar e identificar el conjunto de validación, prueba y entrenamiento.
Si el conjunto de datos obtenido se encuentra divido en los subconjuntos de entrenamiento, validación y prueba, comenzar el análisis de los datos. De otra forma, desarrollar un método que permita dividir el conjunto de datos para obtener los tres subconjuntos presentados anteriormente.
Febrero 2018 Marzo 2018
3 5 Pre-procesar el corpus médico.
Aplicar técnicas de preprocesamiento que permitan separar los textos clínicos en secciones, sentencias y palabras. Así como eliminar elementos innecesarios como signos de puntuación
Febrero 2018 Marzo 2018
4 5 Pre-procesar el corpus médico a nivel sintáctico
Instalar y aplicar el analizador de Stanford para conocer la relación sintáctica que existe entre las palabras. Guardar los resultados del analizador utilizado
Marzo 2018 Mayo 2018
5 5 Construir los árboles sintácticos
Desarrollar los árboles sintácticos, con base en los resultados obtenidos por el analizador
Mayo 2018 Agosto 2018
6 10 Construir los n-gramas sintácticos y extraer características
Desarrollar los algoritmos de extracción de características de los n-gramas sintácticos, y extraer las carácteristicas que comúnmente son usadas en el procesamiento de lenguaje natural: bolsa de palabras y bigramas
Junio 2018 Agosto 2018
7 10 Extraer carácterísitcas de cada elemento de la sentencia
Considerar las características de cada elemento de la sentencia como: lema, pos, chunk, tipo, entre otras
Junio 2018 Agosto 2018
8 5 Recorrer los árboles sintácticos
Aplicar el recorrido de los árboles sintácticos, para cambiar la estructura de las sentencias, a fin de cambiar la forma lineal en que los métodos de aprendizaje automático interpretan las sentencias
Junio 2018 Agosto 2018
9 15 Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los h
Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los hiperparámetros de los modelos seleccionados usando sólo dos subconjuntos: entrenamiento y validación
Septiembre 2018 Octubre 2018
10 15 Realizar experimentos usando el subconjunto de prueba.
Aplicar los métodos de aprendizaje automático seleccionado en el conjunto de prueba.
Septiembre 2018 Octubre 2018
11 5 Evaluar los resultados
Evaluar los resultados considerando las diversas métricas de evaluación: precisión, recall, f-measure
Octubre 2018 Noviembre 2018
12 15 Elaborar publicaciones
Realizar publicaciones y reportes de los resultados obtenidos
Octubre 2018 Diciembre 2018
Porcentaje: 100 %

Nota: La planeaci�n debe hacerse de acuerdo a las actividades del a�o actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Cap�tulo Descripci�n / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, tarjetas GPU para procesamiento paralelo, etc.) para mejorar el equipo existente. 64000   
3000  5,000 Para la asistencia a un congreso internacional para presentar los resultados del proyecto

30,000 Para publicacion de los resultados de proyectos en revistas
35000   
4000      
5000      
7000      
Total:  $ 99000