FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
INSTITUTO
POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO
PARA PROYECTOS DE INVESTIGACIÓN
PROYECTO INDIVIDUAL
X
CORTO PLAZO
X
PROYECTO EN PROGRAMA ESPECIAL
PROYECTO DE INNOVACIÓN
PROYECTO MULTIDISCIPLINARIO
MEDIANO PLAZO
PROYECTO TRANSDISCIPLINARIO
PROYECTO DE RED
PROYECTO DE INICIACIÓN
PROYECTO CON IMPACTO CyT
Información General del Proyecto de Investigación
CIC
Departamento de Ciencias en la Computación
Escuela, Centro o Unidad
Sección. División o Departamento
Registro asignado por la SIP: 20181849
Datos del director(a) del Proyecto de investigación:
Sidorov
-
Grigori
Apellido Paterno
Apellido Materno
Nombres
Tipo de plaza en el IPN: Titular C - (BASE)
Grado académico: Doctorado
Horas de nombramiento: 40
RFC: SIGR651028
CURP: SIXG651028HNEDXR09
SNI: III
BECAS:
COFAA IV
EDD ---
EDI IX
(Indicar nivel)
Teléfono oficina (Ext): 56518
Correo electrónico
Teléfono particular: 5591887293
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior
Superior
Posgrado
X
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología
X
Ciencias Sociales
Ciencias Naturales
Ciencias Agrícolas
Ciencias Médicas
Humanidades
Educación
Clasificación CONACyT:
Sector: Sector Comunicaciones y Transportes
Subsector: Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información
Tipos de investigación:
Básica
X
Aplicada
Autoequipamiento
Desarrollo Tecnológico
Educativa
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género
Sustentabilidad
Ninguno
X
Objetivo de desarrollo sostenible: ---
Red a la que pertenece el proyecto: ---
¿A que tipo de investigación pertenece el proyecto:
Investigación científica
investigación tecnológica
Posgrado
X
¿A que tipo de avance contribuye el proyecto: ---
Scopus: ---
Orcid: ---
Grigori Sidorov -
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve,
conciso y representativo del tema central de investigación
La presentación deberá hacerse
de acuerdo a la siguiente estructura:
1. Descripción del proyecto
2. Subproductos comprometidos
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
2
Congresos
0
1
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
1
Medio
Superior
Posgrado
Tesistas
0
0
3
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
3
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 2
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
2. Subproductos comprometidos año 3
Nacional
Internacional
Nacional
Internacional
Artículo de Divulgación
0
0
Artículo Científico
0
0
Congresos
0
0
Seminiarios
0
0
Cursos
0
0
Manuales
0
0
Libros
0
0
Programa de Radio y TV
0
0
Conferencias o Ponencias
0
0
Piloto
Laboratorio
Piloto
Laboratorio
Proceso
0
0
Prototipo
0
0
Patente
0
0
Certificado de Invención
0
0
Hardware
0
0
Software
0
0
Medio
Superior
Posgrado
Tesistas
0
0
0
Practicantes Profesionales
0
0
0
Alumnos PIFI
0
0
0
Prestante de Servicio Social
0
0
Otros (especificar)
0
3. Monto y distribución
del presupuesto solicitado (anexar): honorarios (sólo centros
foráneos), materiales y suministros, servicios generales
y equipamiento (anexar cotización)
3.1 ¿Ha participado en convocatorias externas al Instituto
para el financiamiento de proyectos de investigación?
No
X
Si
Nombre de la convocatoria
4. Recursos humanos. Investigadores y alumnos participantes.
4.1 Investigadores participantes
Número
Nombre
Actividad específica a desarrollar
1
Grigori Sidorov -
Director del proyecto
2
Alexander Gelbukh -
Coordinación y supervisión de la aplicación de los métodos de aprendizaje automático adecuados al problema de extracción de detección de eventos clínicos
3
Ildar Batyrshin -
Coordinación y supervisión de los métodos de aprendizaje automático, extracción de caracteristicas, selección de la metodología de evaluación y desarrollo.
4
Obdulia Pichardo Lagunas
Coordinación de desarrollo de software de obtención de n-gramas sintácticos continuos y no continuos de textos, de n-gramas de caracteres de diferentes tipos y de combinaciones de características
4.2 Alumnos participantes
Número
Nombre
Status*
Actividad específica a desarrollar
1
CAROLINA FOCIL ARIAS
PF
participación en metas
2
Carolina Fócil Arias
TS
Pre-procesar el corpus médico. Construir los árboles sintácticos. Recorrer los árboles sintácticos. Realizar experimentos .
3
Helelna Gómez Adorno
TS
Extracción de los n-grmas sintácticos de los textos médicos.
4
RICARDO LÓPEZ LEÓN
PF
participación en metas
5
Navonil Majumder .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
6
Christian Maldonado .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
7
Ilia Markov .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
8
Carolina Martín del Campo Rodríguez
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
9
ALEJANDRA MIRANDA VEGA
PF
participación en metas
10
Eduardo Rene Rodríguez Avila
TS
Aplicación de los métodos de preprocesamiento a los textos médicos.
11
Miguel Ángel Sánchez Pérez
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
12
Francisco Gabriel Sandoval .
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto.
13
Segun Taofeek Aroyehun
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
14
Jorge Luis Zúñiga Hernández
TS
Análisis de herramientas y algoritmos de aprendizaje automático, para realizar mejoras a los resultados obtenidos durante el desarrollo de este proyecto
Obtener un corpus médico Solicitar y firmar acuerdo de privacidad con el equipo de SemEval para obtener el corpus clínico. Los datos contienen textos clínicos de pacientes que sufren cáncer de colón, y los reportes fueron realizados por médicos de la clínica Mayo, cuya información está basada en dos tipos de textos: clínicos y patológicos
Enero 2018
Febrero 2018
2
5
Analizar e identificar el conjunto de validación, prueba y entrenamiento. Si el conjunto de datos obtenido se encuentra divido en los subconjuntos de entrenamiento, validación y prueba, comenzar el análisis de los datos. De otra forma, desarrollar un método que permita dividir el conjunto de datos para obtener los tres subconjuntos presentados anteriormente.
Febrero 2018
Marzo 2018
3
5
Pre-procesar el corpus médico. Aplicar técnicas de preprocesamiento que permitan separar los textos clínicos en secciones, sentencias y palabras. Así como eliminar elementos innecesarios como signos de puntuación
Febrero 2018
Marzo 2018
4
5
Pre-procesar el corpus médico a nivel sintáctico Instalar y aplicar el analizador de Stanford para conocer la relación sintáctica que existe entre las palabras. Guardar los resultados del analizador utilizado
Marzo 2018
Mayo 2018
5
5
Construir los árboles sintácticos Desarrollar los árboles sintácticos, con base en los resultados obtenidos por el analizador
Mayo 2018
Agosto 2018
6
10
Construir los n-gramas sintácticos y extraer características Desarrollar los algoritmos de extracción de características de los n-gramas sintácticos, y extraer las carácteristicas que comúnmente son usadas en el procesamiento de lenguaje natural: bolsa de palabras y bigramas
Junio 2018
Agosto 2018
7
10
Extraer carácterísitcas de cada elemento de la sentencia Considerar las características de cada elemento de la sentencia como: lema, pos, chunk, tipo, entre otras
Junio 2018
Agosto 2018
8
5
Recorrer los árboles sintácticos Aplicar el recorrido de los árboles sintácticos, para cambiar la estructura de las sentencias, a fin de cambiar la forma lineal en que los métodos de aprendizaje automático interpretan las sentencias
Junio 2018
Agosto 2018
9
15
Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los h Aplicar los métodos de aprendizaje automático seleccionados, para ajustar los hiperparámetros de los modelos seleccionados usando sólo dos subconjuntos: entrenamiento y validación
Septiembre 2018
Octubre 2018
10
15
Realizar experimentos usando el subconjunto de prueba. Aplicar los métodos de aprendizaje automático seleccionado en el conjunto de prueba.
Septiembre 2018
Octubre 2018
11
5
Evaluar los resultados Evaluar los resultados considerando las diversas métricas de evaluación: precisión, recall, f-measure
Octubre 2018
Noviembre 2018
12
15
Elaborar publicaciones Realizar publicaciones y reportes de los resultados obtenidos
Octubre 2018
Diciembre 2018
Porcentaje:
100 %
Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.
6. Presupuesto
Solicitado
Capítulo
Descripción / Concepto
Total (Pesos)
2000
Compra de partes de las computadoras (memorias, discos duros, tarjetas GPU para procesamiento paralelo, etc.) para mejorar el equipo existente.
64000
3000
5,000 Para la asistencia a un congreso internacional para presentar los resultados del proyecto
30,000 Para publicacion de los resultados de proyectos en revistas