Xiaoli Jiao, Xin Zheng, Liang Ma, Geetha Kutty, Emile Gogineni
PacBio RS, una plataforma de secuenciación de ADN de tercera generación de reciente aparición, se basa en una tecnología de secuenciación nano-nitch de una sola molécula en tiempo real que puede generar lecturas muy largas (hasta 20 kb) en contraste con las lecturas más cortas producidas por las tecnologías de secuenciación de primera y segunda generación. Como plataforma nueva, es importante evaluar la tasa de error de secuenciación, así como los parámetros de control de calidad (QC) asociados con los datos de secuencia de PacBio. En este estudio, se secuenció una mezcla de 10 amplicones de ADN conocidos previamente y estrechamente relacionados utilizando la plataforma de secuenciación PacBio RS. Después de alinear las lecturas de secuencia de consenso circular (CCS) derivadas del experimento de secuenciación anterior con las secuencias de referencia conocidas, descubrimos que la tasa de error media era del 2,5 % sin control de calidad de lectura y mejoró al 1,3 % con un método de control de calidad multiparamétrico basado en SVM. Además, se utilizó un ensamblaje De Novo como una aplicación posterior para evaluar los efectos de diferentes enfoques de control de calidad. Este estudio de referencia indica que, si bien las lecturas CCS se corrigen posteriormente en cuanto a errores, aún es necesario realizar un control de calidad adecuado en las lecturas CCS para producir resultados analíticos bioinformáticos posteriores exitosos.