Caracterización de la variabilidad en la secuencia de la proteína Spike del virus SARS-CoV-2 con Análisis Topológico de Datos

Ponente(s): Cynthia Elizabeth Castillo Silva, Brenda Carolina Sanmiguel Mercado, Francisco Javier Almaguer Martínez, Francisco Hernández Cabrera
A finales de diciembre de 2019, surgió en Wuhan, China, un nuevo coronavirus, denominado "Síndrome respiratorio agudo severo 2" (SARS-CoV-2). Actualmente la alta tasa de mutación observada se ha correlacionado con una modulación en su virulencia y una rápida capacidad adaptativa. Estas mutaciones se localizan a lo largo de todo el genoma viral; un arreglo lineal de cadena sencilla con 29.9 mil nucleótidos. El objetivo de esta investigación es la caracterización de la variabilidad en la proteína S del virus SARS-CoV-2 utilizando Análisis Topológico de Datos (TDA). El TDA ha sido implementado para el reconocimiento de patrones en espacios de alta dimensionalidad. En este trabajo consideramos más de cien mil secuencias aminoacídicas completas de la proteína Spike (1273 aminoácidos) tomadas de la base de datos del NCBI y una matriz de puntuación en escala evolutiva. Las secuencias fueron alineadas con base en una secuencia consenso global y posteriormente en cada secuencia se pesaron las mutaciones de aminoácidos con la matriz de puntuación. Posteriormente se utilizó TDA para determinar la persistencia de homología de las secuencias por país de origen con fecha de muestreo y se determinaron las distancias de Wasserstein entre las estructuras topológicas de los grupos de datos. Finalmente, un método de agrupamiento proporcionó la tendencia de mutaciones en las secuencias, así como las regiones con más probabilidad de mutación. Los resultados podrían utilizarse para hacer inferencia sobre la tendencia evolutiva del virus e incluso a anticiparse ante posibles recombinaciones de sus diferentes cepas y su repercusión en el posible uso fármacos o vacunas dirigidas contra el SARS-CoV-2 basados en la proteína S.