Antimicrobial Resistance Prediction and Forensics CAMDA 2023
Ponente(s): Shaday Guerrero Flores, Leticia Ramírez, Mario Carranza, Nelly Sélem Mojica, Shaday Guerrero Flores, Haydee Contreras Peruyero, Maribel Hernandez Rosales, Mirna Váquez Rosas Landa Imanol Núñez, Johan Eduardo Pérez Ramírez, José María Ibarra Rodríguez, Víctor Fernando Fontove Herrera, Diana Barceló, Francisco José Villalobos Salcido, Mario Alejandro Molina Palma, Miguel Nakamura, Paula Camila Silva Gómez, Andrés Arredondo Cruz, Jose Abel Lovaco Flores, Eugenio Balanzario, Daniel Santana Quinteros, Francisco Santiago Nieto de la Rosa, Mariel Guadalupe Gutiérrez Chaveste, José Miguel Calderón León, Miguel Magaña, Karina Enriquez Guillén, Rafael Pérez Estrada, Antón Pashkov.
Los patrones taxonómicos y de resistencia antimicrobiana (AMR) surgen en diferentes ciudades. Cada año, la Comunidad de Interés de Evaluación Crítica del Análisis Masivo de Datos (CAMDA, por sus siglas en inglés) proporciona un desafío que ayuda a los científicos a desarrollar capacidades y buenas prácticas de datos extensivos. Exploramos datos del microbioma de 15 ciudades. Las muestras de 2016 y 2017 fueron proporcionadas por MetaSUB, con el objetivo de identificar una ciudad misteriosa dada un patrón de RAM. Aquí abordamos tanto 1) el desafío de geolocalización forense, es decir, dada un conjunto de entrenamiento, predecir la etiqueta de ciudad de un conjunto de prueba, como 2) Descubrir la ciudad misteriosa dado el perfil de AMR.
Nuestro trabajo se divide en 1) Perfil de antibióticos, 2) Exploración preliminar de datos, 3) Algoritmos de clasificación, 4) Reducción de la varianza y 5) Pruebas de hipótesis. El perfil de antibióticos muestra que Nueva York es la ciudad con más mecanismos de resistencia a los antibióticos. Lisboa es atípica en su diversidad alfa. Utilizamos regresión logística y redes neuronales para el problema de clasificación. Ampliaremos nuestros análisis incorporando máquinas de vectores de soporte, bosques aleatorios y modelos de conjunto, y añadiendo los perfiles de AMR. Utilizamos regresión binomial negativa para abordar la reducción de la varianza mediante la identificación de OTUs (Unidades Taxonómicas Operativas) diferencialmente abundantes, utilizando sus resultados para disminuir el número de OTUs y reducir la dispersión en el conjunto de datos. Continuaremos en esta línea con modelos inflados de ceros para tener en cuenta mejor la presencia de ceros. Exploramos mediante pruebas de hipótesis para confirmar las diferencias entre los índices de diversidad entre algunas ciudades por año y clima.