FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO   X  
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO    
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Departamento de Ciencias en la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Extracción automática de eventos clínicos desde textos médicos

Registro asignado por la SIP:  20181849     
Datos del director(a) del Proyecto de investigación:
  Sidorov     -     Grigori  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  SIGR651028  CURP:  SIXG651028HNEDXR09 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56518  Correo electrónico Teléfono particular:  5591887293 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   ---  
Orcid:   ---  
  Grigori Sidorov -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
En este proyecto se propone desarrollar una metodología para el reconocimiento automático de eventos clínicos, donde un evento puede ser cualquier identificador que ayude en el tratamiento o en la detección de situaciones que son relevantes en el diagnóstico del paciente. Durante la metodología se plantea el uso de árboles sintácticos y algoritmos de aprendizaje automático con características no empleadas anteriormente, tales como n-gramas sintácticos. Además, con el uso de algoritmos de aprendizaje automático y de árboles sintácticos se puede implementar una nueva forma de asignación de etiquetas a una secuencia de datos, modificando la estructura de la sentencia.

1.2 Objetivo general
Desarrollar una metodología para la identificación automática de eventos clínicos que se encuentran presentes en textos médicos, es decir, detectar todas aquellas palabras como síntomas, procedimientos, entre otras, que estén relacionadas con el cáncer de colón; aplicando algoritmos de aprendizaje automático y técnicas de procesamiento de lenguaje natural

1.3 Objetivos específicos
1. Identificar los métodos de procesamiento de lenguaje natural y aprendizaje automático para la identificación de palabras que estén relacionadas con eventos clínicos.
2. Seleccionar uno o varios conjuntos de datos clínicos.
3. Pre-procesar del conjunto de datos.
4. Identificar los métodos que han sido aplicados en el estado del arte.
5. Desarrollar una metodología para la detección automátic

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   2 
Congresos  0   1  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   1 
Medio       Superior Posgrado
Tesistas  0   0   3 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   3 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Grigori Sidorov - Director del proyecto
2 Alexander Gelbukh -
  
Coordinación y supervisión de la aplicación de los métodos de aprendizaje automático adecuados al problema de extracción de detección de eventos clínicos
3 Ildar Batyrshin -
  
Coordinación y supervisión de los métodos de aprendizaje automático, extracción de caracteristicas, selección de la metodología de evaluación y desarrollo.
4 Obdulia Pichardo Lagunas
  
Coordinación de desarrollo de software de obtención de n-gramas sintácticos continuos y no continuos de textos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 CAROLINA FOCIL ARIAS PF participación en metas
2 Carolina Fócil Arias TS Pre-procesar el corpus médico. Construir los árboles sintácticos. Recorrer los árboles sintácticos. Realizar experimentos .
3 Helelna Gómez Adorno TS Extracción de los n-grmas sintácticos de los textos médicos.
4 RICARDO LÓPEZ LEÓN PF participación en metas
5 Navonil Majumder . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
6 Christian Maldonado . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
7 Ilia Markov . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
8 Carolina Martín del Campo Rodríguez TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
9 ALEJANDRA MIRANDA VEGA PF participación en metas
10 Eduardo Rene Rodríguez Avila TS Aplicación de los métodos de preprocesamiento a los textos médicos.
11 Miguel Ángel Sánchez Pérez TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
12 Francisco Gabriel Sandoval . TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
13 Segun Taofeek Aroyehun TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
14 Jorge Luis Zúñiga Hernández TS Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Obtener un corpus médico
Solicitar y firmar acuerdo de privacidad con el equipo de SemEval para obtener el corpus clínico. Los datos contienen textos clínicos de pacientes que sufren cáncer de colón, y los reportes fueron realizados por médicos de la clínica Mayo, cuya información está basada en dos tipos de textos: clínicos y patológicos
Enero 2018 Febrero 2018
2 5 Analizar e identificar el conjunto de validación, prueba y entrenamiento.
Si el conjunto de datos obtenido se encuentra divido en los subconjuntos de entrenamiento, validación y prueba, comenzar el análisis de los datos. De otra forma, desarrollar un método que permita dividir el conjunto de datos para obtener los tres subconjuntos presentados anteriormente.
Febrero 2018 Marzo 2018
3 5 Pre-procesar el corpus médico.
Aplicar técnicas de preprocesamiento que permitan separar los textos clínicos en secciones, sentencias y palabras. Así como eliminar elementos innecesarios como signos de puntuación
Febrero 2018 Marzo 2018
4 5 Pre-procesar el corpus médico a nivel sintáctico
Instalar y aplicar el analizador de Stanford para conocer la relación sintáctica que existe entre las palabras. Guardar los resultados del analizador utilizado
Marzo 2018 Mayo 2018
5 5 Construir los árboles sintácticos
Desarrollar los árboles sintácticos, con base en los resultados obtenidos por el analizador
Mayo 2018 Agosto 2018
6 10 Construir los n-gramas sintácticos y extraer características
Desarrollar los algoritmos de extracción de características de los n-gramas sintácticos, y extraer las carácteristicas que comúnmente son usadas en el procesamiento de lenguaje natural: bolsa de palabras y bigramas
Junio 2018 Agosto 2018
7 10 Extraer carácterísitcas de cada elemento de la sentencia
Considerar las características de cada elemento de la sentencia como: lema, pos, chunk, tipo, entre otras
Junio 2018 Agosto 2018
8 5 Recorrer los árboles sintácticos
Aplicar el recorrido de los árboles sintácticos, para cambiar la estructura de las sentencias, a fin de cambiar la forma lineal en que los métodos de aprendizaje automático interpretan las sentencias
Junio 2018 Agosto 2018
9 15 Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los h
Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los hiperparámetros de los modelos seleccionados usando sólo dos subconjuntos: entrenamiento y validación
Septiembre 2018 Octubre 2018
10 15 Realizar experimentos usando el subconjunto de prueba.
Aplicar los métodos de aprendizaje automático seleccionado en el conjunto de prueba.
Septiembre 2018 Octubre 2018
11 5 Evaluar los resultados
Evaluar los resultados considerando las diversas métricas de evaluación: precisión, recall, f-measure
Octubre 2018 Noviembre 2018
12 15 Elaborar publicaciones
Realizar publicaciones y reportes de los resultados obtenidos
Octubre 2018 Diciembre 2018
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  Compra de partes de las computadoras (memorias, discos duros, tarjetas GPU para procesamiento paralelo, etc.) para mejorar el equipo existente. 64000   
3000  5,000 Para la asistencia a un congreso internacional para presentar los resultados del proyecto

30,000 Para publicacion de los resultados de proyectos en revistas
35000   
4000      
5000      
7000      
Total:  $ 99000   

Dictamen del Proyecto:
                                             Aprobado