Mingqi Wu, Monique Rijnkels y Faming Liang
Debido a su mapeo de mayor resolución y señales de enriquecimiento de ChIP más fuertes, ChIP-seq tiende a reemplazar la tecnología ChIP-chip en el estudio de interacciones proteína-ADN en todo el genoma, mientras que los datos digitales masivos de ChIP-seq presentan nuevos desafíos para los estadísticos. Hasta la fecha, la mayoría de los métodos propuestos en la literatura para el análisis de datos de ChIP-seq están basados en modelos, sin embargo, encontrar un modelo único que funcione para todos los conjuntos de datos es imposible, dada la complejidad de los sistemas biológicos y las variaciones generadas en el proceso de secuenciación. En este artículo, presentamos un enfoque sin modelo, el llamado MICS (Model-free Inference for ChIP-Seq), para el análisis de datos de ChIP-seq. MICS tiene algunas ventajas sobre los métodos existentes: en primer lugar, MICS evita suposiciones para la distribución de datos y, por lo tanto, mantiene una alta potencia incluso cuando se violan las suposiciones del modelo para los datos. En segundo lugar, MICS emplea un método basado en simulación para estimar la tasa de descubrimiento falso. Dado que el método basado en simulación funciona independientemente de las muestras de ChIP, MICS puede funcionar de manera robusta para una variedad de muestras de ChIP; Puede producir una identificación precisa de las regiones pico, incluso para aquellas en las que el enriquecimiento es débil. En tercer lugar, MICS es muy eficiente en el cálculo, que lleva solo unos segundos en una computadora personal para un conjunto de datos razonablemente grande. En este artículo, también presentamos un método semiempírico simple para simular datos de ChIP-seq, que permite una mejor evaluación del rendimiento de diferentes enfoques para el análisis de datos de ChIP-seq. MICS se compara con varios métodos existentes, incluidos MACS, CCAT, PICS, BayesPeak y QuEST, basados en conjuntos de datos reales y simulados. Los resultados numéricos indican que MICS puede superar a otros. Disponibilidad: Un paquete R llamado MICS está disponible en http://www.stat.tamu.edu/~mqwu.