Miroslaw J. Gilski y Rovshan G. Sadygov
La Iniciativa de Estándares de Proteómica de la Organización del Proteoma Humano (HUPO) se ha encargado de desarrollar formatos de archivo para almacenar datos brutos (mzML) y los resultados del procesamiento espectral (identificación y cuantificación de proteínas) de experimentos de proteómica (mzIndentML). Para caracterizar por completo los experimentos complejos, se han diseñado tipos de datos especiales. Los formatos de archivo estandarizados promoverán la visualización, validación y difusión de datos independientemente de los archivos de almacenamiento de datos binarios específicos del proveedor. Las soluciones programáticas innovadoras para el acceso robusto y eficiente a los datos en formatos de archivo estandarizados contribuirán a una aceptación más rápida y a gran escala de estos formatos de archivo por parte de la comunidad de proteómica. En este trabajo, comparamos algoritmos para acceder a datos espectrales en el formato de archivo mzML. Como archivo XML, los archivos mzML permiten un análisis eficiente de las estructuras de datos cuando se utilizan tipos de clase específicos de XML. Estas clases proporcionan solo acceso secuencial a los archivos. Sin embargo, el acceso aleatorio a los datos espectrales es necesario en muchas aplicaciones algorítmicas para procesar conjuntos de datos de proteómica. Aquí, demostramos la implementación de flujos de memoria para convertir un acceso secuencial en un acceso aleatorio. Nuestra aplicación conserva las elegantes capacidades de análisis de XML. La evaluación comparativa de los tiempos de acceso a archivos en los modos de acceso secuencial y aleatorio muestra que, si bien para una pequeña cantidad de espectros, el acceso aleatorio es más eficiente en términos de tiempo, cuando se recupera una gran cantidad de espectros, el acceso secuencial se vuelve más eficiente. También proporcionamos comparaciones con otros métodos de acceso a archivos del ámbito académico y de la industria.