dc.description | Los virus son agentes microscópicos acelulares que requieren una célula hospedera para sobrevivir. Estos pueden infectar a todas las formas de vida en la Tierra, incluyendo los tres dominios de la vida, eucaria, bacteria y arquea. Los virus han causado algunas de las enfermedades más dramáticas y mortales en la historia humana. Sin embargo, la detección de virus permaneció muy limitada hasta el desarrollo de la metagenómica, la cual es el estudio de los fragmentos de secuencias del genoma de todos los diferentes microorganismos presentes en una muestra que se recupera directamente de un ambiente u hospedero. Los estudios metagenómicos han sido posibles gracias a las tecnologías de secuenciación de nueva generación (NGS; Next-Generation Sequencing), las cuales permiten obtener las secuencias de ADN de todos los ácidos nucleicos presentes en una muestra, generando grandes volúmenes de datos. Estos requieren ser analizados con métodos formales de computación; uno de los análisis es la clasificación taxonómica. La mayoría de los métodos existentes para este tipo de análisis se enfocan en la clasificación de secuencias bacterianas. Las herramientas encargadas de la clasificación de virus tienen una baja sensibilidad, debido a: i) La poca abundancia de las secuencias virales, ya que estas solo representan del 1% al 5% del ADN total obtenido de una muestra. ii) No existen genes marcadores universales, como en las bacterias, que permitan caracterizarlos fácilmente. iii) La mayoría (usualmente, entre el 60% y 99%) de las secuencias de virus obtenidas en cualquier ambiente no tienen similitud con otras secuencias en las bases de datos (BD) de referencia. Aunado a esto, el tiempo de procesamiento generalmente es muy costoso.
Con los problemas antes mencionados y aunado al aumento de datos metagenómicos, se han iniciado el uso de nuevas técnicas que sean capaces de trabajar con un gran conjunto de información y encontrar patrones de ellos, como lo son las redes neuronales profundas.
El objetivo de este proyecto fue desarrollar un nuevo método computacional que permite discriminar (clasificar) taxonómicamente las lecturas cortas de ADN de virus generadas por tecnologías de secuenciación masiva de ADN para estudios de metagenómica. El método desarrollado considera casi todas las familias virales definidas hasta enero del 2020 (169 para la información de NCBI nt y 127 para RefSeq) e incluye los virus que no pertenecen a ninguna familia viral, es decir, no tiene definida una asignación taxonómica a nivel familia. Dicho método realiza una clasificación a nivel nucleótido e identifica a qué familia pertenecen las secuencias mediante el uso de una red neuronal de convolución (en inglés Convolution Neural Networks, CNN), las cuales son un tipo de red neuronal profunda que identifica patrones en la información, comparte parámetros y reducen la dimensionalidad. | es_MX |