John P. Jakupciak, Jeffrey M. Wells, Jeffrey S. Lin y Andrew B. Feldman
La preparación para la biodefensa comienza con la capacidad de detectar y responder a las amenazas biológicas, basándose en una interpretación precisa de la información genética con herramientas bioinformáticas sofisticadas, pero fáciles de usar. La ciencia forense microbiana permite además la atribución de muestras de patógenos microbianos a una fuente sospechosa. La caracterización de las muestras y la trazabilidad hasta la fuente dependen de la identificación genómica de objetivos específicos dentro de las muestras, el análisis exhaustivo de las mezclas de poblaciones presentes y la detección de variaciones mayores o menores en los genomas identificados y la comparación del perfil genético de la muestra con otras muestras. Las plataformas comerciales de secuenciación de próxima generación (NGS) ofrecen la promesa de una sensibilidad de detección y una resolución de las muestras de ADN forenses mucho mayores que las que se pueden lograr con los métodos que se utilizan actualmente. Sin embargo, antes de aplicar estas tecnologías para los análisis forenses de muestras bacterianas, es fundamental dilucidar por completo los beneficios, las advertencias y las dificultades de la NGS para la prueba de hipótesis en los análisis comparativos, ya que en última instancia esto será necesario para el uso de la NGS tanto como herramienta de investigación como herramienta de atribución en los tribunales de justicia. Métodos: Desarrollamos y evaluamos nuevos algoritmos probabilísticos para procesar datos de secuencia metagenómica de la secuenciación directa de muestras para identificar genomas presentes en mezclas. Resultados: Presentamos un proceso para comparaciones de muestra a muestra sin referencias para mejorar la caracterización del objetivo más allá de un microorganismo hasta la caracterización del contenido completo de la muestra. Nuestras herramientas fortalecen la confianza estadística para rastrear la ascendencia de las muestras y atribuir muestras a la fuente con certezas probabilísticas en muchos objetivos en lugar de un solo genoma. Conclusión: Este estudio desarrolló una nueva estrategia bioinformática sin referencias para dar cuenta e identificar la diversidad genética en las muestras. Las variantes de secuencia deben confirmarse de manera no arbitraria tanto en lecturas directas como inversas a una tasa superior al nivel de ruido de fondo del error de la máquina secuenciadora. Una métrica de distancia de similitud compara genomas dentro de un rango de relaciones cercanas. Usando datos de secuencia de agentes de amenaza biológica, atribuimos con éxito cepas relacionadas conocidas juntas y excluimos la relación cercana de cepas no relacionadas conocidas. Las principales fortalezas de este método forense son las determinaciones no arbitrarias de la validación de datos y las métricas de parentesco, así como la capacidad de comparar genomas microbianos con o sin una base de datos de referencia de genomas relacionados.