Eric B. Lipsky, Brian R. King y Gerard Tromp
Los sistemas de secuenciación de próxima generación (NGS) producen grandes cantidades de datos que requieren una cantidad sustancial de información. recursos computacionales para tareas de análisis típicas. Además, los datos generados por diferentes sistemas NGS no son homogéneos. Además, hay una abrumadora cantidad de herramientas disponibles para realizar tareas típicas. La gestión de flujos de trabajo NGS implica escribir scripts personalizados que crecen rápidamente en complejidad, lo que a menudo da como resultado flujos de trabajo difíciles de manejar que subutilizan los recursos informáticos típicos de alto rendimiento y aumentan las demandas del personal que administra estos flujos de trabajo. Presentamos Node-Oriented Workflow (NOW), un motor de flujo de trabajo de plantilla de comando dinámico para sistemas de computación distribuida (HPC) de alto rendimiento. Nuestro sistema proporciona una interfaz basada en navegador fácil de usar para diseñar y administrar flujos de trabajo complejos. Los flujos de trabajo se configuran utilizando una interfaz de navegador simple y son administrados por el motor de trabajo integrado, que inicializa los nodos, monitorea el estado del nodo y procesa los resultados de los trabajos individuales en todos los nodos en una configuración HPC. Reducimos la mensajería excesiva en todos los nodos. nodos al colocar la carga sobre los nodos para iniciar tareas en un flujo de trabajo cuando se cumplen las dependencias, es decir, flujo de trabajo orientado a nodos. Nuestro sistema fue diseñado para el procesamiento de NGS en el entorno de investigación clínica, enfatizando la simplicidad para el usuario, la escalabilidad de la herramienta, la minimización de la redundancia en los flujos de trabajo, al mismo tiempo que se maximiza el rendimiento en un entorno HPC. Además, NOW no se limita a la gestión de la secuencia de NGS, sino que se puede utilizar para gestionar cualquier secuencia computacional.