https://revista.itdataperu.net/index.php/itdata/issue/feed REVISTA DEL GRUPO DE INVESTIGACION - ITDATA 2024-06-30T23:53:39-05:00 NORBERTO ROMAN CONCHA nromanc@unmsm.edu.pe Open Journal Systems <p>Es una revista de publicación anual de los trabajos de investigación del grupo ITDATA , tanto de los docentes, estudiantes e invitados ; así como la publicación de las actas, relatorios técnicos y resúmenes de los eventos internacionales / Nacionales organizados por el grupo de investigación.</p> https://revista.itdataperu.net/index.php/itdata/article/view/35 PRUEBA AUTOMÁTICA DE HIPÓTESIS SOBRE BASES DE DATOS BIOLÓGICAS HETEROGÉNEAS UTILIZANDO REDES DE CONOCIMIENTO ABIERTAS 2023-12-28T00:08:02-06:00 Jamil Hasan . nromanc@unmsm.edu.pe <p>Es necesario comprender las bases moleculares del dolor musculoesquelético para el desarrollo de terapias, su manejo y posible personalización. Uno de cada tres estadounidenses usa analgésicos de venta libre y una décima parte usa medicamentos recetados para controlar el dolor. Los CDC también estiman que alrededor del 20\% de los estadounidenses sufren dolor crónico. Dado que la experiencia del dolor agudo o crónico varía debido a la genética y la fisiología individual, es imperativo que los investigadores continúen encontrando nuevas terapias para tratar o controlar los síntomas. En este artículo, nuestro objetivo es desarrollar una plataforma computacional basada en el conocimiento semilla, llamada BioNursery, que permitirá a los biólogos formular hipótesis, definir y probar computacionalmente los mecanismos moleculares subyacentes al dolor. En nuestro ecosistema de conocimiento, acumulamos información seleccionada de los usuarios sobre las relaciones entre bases de datos biológicas, herramientas de análisis y contenidos de bases de datos para generar módulos de análisis biológicos, llamados pi-graphs o gráficos de procesos. Proponemos una función de mapeo desde una descripción en lenguaje natural de un modelo molecular hipotético hasta un flujo de trabajo computacional para realizar pruebas en BioNursery. Utilizamos un sistema de curación y retroalimentación de computación colectiva, llamado Explorer, para mejorar los modelos computacionales propuestos para el descubrimiento de mecanismos moleculares y el crecimiento del ecosistema de conocimiento</p> 2023-12-28T00:00:00-06:00 Derechos de autor 2023 https://revista.itdataperu.net/index.php/itdata/article/view/36 MÉTODOS DE LIMPIEZA Y PREPROCESAMIENTO DE DATOS APLICADOS A COVID-19 2024-06-30T23:53:39-05:00 Jorge Zavaleta . nromanc@unmsm.edu.pe <p>La falta de datos es un problema en el análisis de las informaciones contenidas en los datos, afectando un real reconocimiento de patrones y la toma de decisiones en todas las áreas del conocimiento. La colecta y el preprocesamiento de datos son las dos primeras fases del ciclo de vida del análisis de datos, de un total de seis fases. Este ciclo de vida del análisis de datos define un conjunto de mejores prácticas (metodología) a realizar en cada fase, el flujo de ejecución y el resultado en el proceso de análisis [1], [2]. Independientemente de cómo se recopilen los datos, los datos suelen tener errores, lo que significa que es necesario limpiarlos (prepararlos) antes de ser preprocesados. Estos errores pueden ser causados ​​por varios factores como errores humanos, problemas de modelo, problemas de equipos informáticos y electrónicos, valores inesperados, información incompleta, resolución, relevancia de campos, formatos de datos, interferencia del entorno, error de configuración en el proceso de registro de datos, etc., introduciendo lagunas en los datos para la siguiente fase de procesamiento de estos.</p> <p>La segunda fase es el preprocesamiento o preparación de datos donde los datos son procesados, explorados y acondicionados antes de modelarlos, realizando los procesos de extracción, transformación, carga y/o transformación (ETL/ETLT) para realizar las pruebas y análisis de datos [3], utilizando una infraestructura computacional adecuada, tanto para almacenamiento de alta capacidad como para alta capacidad de entrada/salida. La preparación de datos implica usar métodos para limpiar, combinar, agregar datos o conjuntos de datos, así como elegir algunas muestras apropiadas para el entrenamiento y las pruebas. Esta fase demanda mucho tiempo y es la más laboriosa, gastando más de la mitad del tiempo de un proyecto [4].</p> <p>Debido a la amplitud del tema, este tema será restringido al problema de falta de datos, que es una ocurrencia común en el análisis de datos y su teoría está estrechamente relacionada con modelos estadísticos y puede tratarse fácilmente utilizando modelos matemáticos simples y/o complejos. El problema de falta de datos es tratado usando métodos de limpieza y preprocesamiento del lenguaje Python y sus bibliotecas numpy y pandas en datasets de COVID-19 relacionados al estado de Rio de Janeiro con el objetivo de tener datos con mayor calidad y confiabilidad resultando en <em>toma d</em>e decisiones más exactas a la realidad.</p> 2024-06-06T00:00:00-05:00 Derechos de autor 2024