Información

Software de análisis de la secuencia del genoma completo


Ayude a elegir los paquetes Bioconductor R y otro software para el análisis de datos de la secuencia del genoma completo y, en particular, los objetivos de la tasa de mutación de descubrimiento falso, la exclusión de mutaciones, la contribución de la mutación y la reducción de la dimensionalidad de los datos. Pude encontrar el software Expander, MeV, Genesis para los experimentos de microarrays, sin embargo, no pude encontrar herramientas similares para el análisis de la secuencia del genoma completo de las micobacterias. Lo siento, mi pregunta no tiene código.


Hay un par de ellos. Primero, si desea secuenciar los paquetes básicos de análisis son:

http://www.bioconductor.org/help/workflows/high-throughput-sequencing/

Además, Maqweb parece prometedor.

http://maqweb.sourceforge.net


SyRI: encontrar reordenamientos genómicos y diferencias de secuencia local de ensamblajes de genoma completo

Las diferencias genómicas van desde diferencias de un solo nucleótido hasta complejas variaciones estructurales. Los métodos actuales suelen anotar con precisión las diferencias de secuencia que van desde SNP hasta indels grandes, pero no desentrañan toda la complejidad de los reordenamientos estructurales, incluidas las inversiones, translocaciones y duplicaciones, donde la secuencia muy similar cambia en ubicación, orientación o número de copias. Aquí presentamos SyRI, una herramienta de comparación de genoma completo por pares para ensamblajes a nivel de cromosomas. SyRI comienza por encontrar regiones reorganizadas y luego busca diferencias en las secuencias, que se distinguen por residir en regiones sinténicas o reorganizadas. Esta distinción es importante ya que las regiones reorganizadas se heredan de manera diferente en comparación con las regiones sinténicas.


Nombre Descripción Tipo de secuencia * Autores Año
EXPLOSIÓN Búsqueda local con heurística rápida de tuplas k (herramienta básica de búsqueda de alineación local) Ambos Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ [1] 1990
HPC-BLAST Envoltura BLAST multinodo y multinúcleo compatible con NCBI. Distribuido con la última versión de BLAST, este contenedor facilita la paralelización del algoritmo en arquitecturas híbridas modernas con muchos nodos y muchos núcleos dentro de cada nodo. [2] Proteína Burdyshaw CE, Sawyer S, Horton MD, Brook RG, Rekapalli B 2017
CS-BLAST BLAST específico de secuencia-contexto, más sensible que BLAST, FASTA y SSEARCH. Versión iterativa de posición específica CSI-BLAST más sensible que PSI-BLAST Proteína Angermueller C, Biegert A, Soeding J [3] 2013
CUDASW ++ Algoritmo Smith Waterman acelerado por GPU para múltiples GPU de host compartido Proteína Liu Y, Maskell DL y Schmidt B 2009/2010
DIAMANTE Alineador BLASTX y BLASTP basado en doble indexación Proteína Buchfink B, Xie C, Huson DH, Reuter K, Drost HG [4] [5] 2015/2021
FASTA Búsqueda local con rapidez k-tuple heurístico, más lento pero más sensible que BLAST Ambos
GGSEARCH, GLSEARCH Global: Global (GG), Global: Local (GL) alineación con estadísticas Proteína
Mago del genoma Software para búsqueda de motivos de secuencia de ADN local ultrarrápida y alineación por pares para datos NGS (FASTA, FASTQ). ADN Hepperle D (www.sequentix.de) 2020
Genoogle Genoogle utiliza técnicas de indexación y procesamiento paralelo para buscar secuencias de ADN y proteínas. Está desarrollado en Java y de código abierto. Ambos Albrecht F 2015
HMMER Búsqueda local y global con modelos de perfil Hidden Markov, más sensibles que PSI-BLAST Ambos Durbin R, Eddy SR, Krogh A, Mitchison G [6] 1998
HH-suite Comparación por pares de perfiles de modelos ocultos de Markov muy sensibles Proteína Söding J [7] [8] 2005/2012
IDF Frecuencia de documento inversa Ambos
Infernal Búsqueda de perfil SCFG ARN Eddy S
KLAST Herramienta de búsqueda de similitud de secuencias de uso general de alto rendimiento Ambos 2009/2014
LAMBDA Alineador local de alto rendimiento compatible con BLAST, pero mucho más rápido compatible con SAM / BAM Proteína Hannes Hauswedell, cantante de Jochen, Knut Reinert [9] 2014
MMseqs2 Paquete de software para buscar y agrupar grandes conjuntos de secuencias. Sensibilidad similar a BLAST y PSI-BLAST pero órdenes de magnitud más rápido Proteína Steinegger M, Mirdita M, Galiez C, Söding J [10] 2017
USEARCH Herramienta de análisis de secuencia ultrarrápida Ambos Edgar, R. C. (2010). "Búsqueda y agrupación de órdenes de magnitud más rápido que BLAST". Bioinformática. 26 (19): 2460–2461. doi: 10.1093 / bioinformatics / btq461. PMID 20709691. publicación 2010
OSWALD OpenCL Smith-Waterman sobre FPGA de Altera para grandes bases de datos de proteínas Proteína Rucci E, García C, Botella G, De Giusti A, Naiouf M, Prieto-Matías M [11] 2016
parasail Búsqueda rápida de Smith-Waterman mediante paralelización SIMD Ambos Diario J 2015
PSI-BLAST BLAST iterativo de posición específica, búsqueda local con matrices de puntuación específicas de posición, mucho más sensible que BLAST Proteína Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ [12] 1997
Búsqueda de PSI Combinando el algoritmo de búsqueda de Smith-Waterman con la estrategia de construcción del perfil PSI-BLAST para encontrar secuencias de proteínas relacionadas lejanamente y prevenir errores homólogos de sobreextensión. Proteína Li W, McWilliam H, Goujon M, Cowley A, Lopez R, Pearson WR [13] 2012
ScalaBLAST BLAST escalable altamente paralelo Ambos Oehmen y col. [14] 2011
Sequilab Vinculación y creación de perfiles de datos de alineación de secuencias de los resultados de NCBI-BLAST con los principales servidores / servicios de análisis de secuencias Nucleótido, péptido 2010
SAM Búsqueda local y global con modelos de perfil Hidden Markov, más sensibles que PSI-BLAST Ambos Karplus K, Krogh A [15] 1999
BÚSQUEDA Búsqueda Smith-Waterman, más lenta pero más sensible que FASTA Ambos
SWAPHI Primer algoritmo paralelo que emplea el emergente Intel Xeon Phis para acelerar la búsqueda en la base de datos de proteínas Smith-Waterman Proteína Liu Y y Schmidt B 2014
SWAPHI-LS Primer algoritmo paralelo de Smith-Waterman que aprovecha los clústeres de Intel Xeon Phi para acelerar la alineación de largas secuencias de ADN ADN Liu Y, Tran TT, Lauenroth F, Schmidt B 2014
Nadar Implementación de Smith-Waterman para arquitecturas Intel Multicore y Manycore Proteína Rucci E, García C, Botella G, De Giusti A, Naiouf M y Prieto-Matías M [16] 2015
SWIMM2.0 Smith-Waterman mejorado en las arquitecturas Intel Multicore y Manycore basadas en extensiones vectoriales AVX-512 Proteína Rucci E, García C, Botella G, De Giusti A, Naiouf M y Prieto-Matías M [17] 2018
GOLPE FUERTE Búsqueda rápida de Smith-Waterman mediante paralelización SIMD Ambos Rognes T 2011

*Tipo de secuencia: proteína o nucleótido

Nombre Descripción Tipo de secuencia * Tipo de alineación ** Autor Año
ACANA Alineación por pares basada en anclaje heurístico rápido Ambos Ambos Huang, Umbach, Li 2005
Alinearme Alineaciones para secuencias de proteínas de membrana Proteína Ambos M. Stamm, K. Khafizov, R. Staritzbichler, L.R. Para descanso 2013
ALLALIGN Para moléculas de ADN, ARN y proteínas de hasta 32 MB, alinea todas las secuencias de tamaño K o superior. Las alineaciones similares se agrupan para su análisis. Filtro automático de secuencia repetitiva. Ambos Local E. Wachtel 2017
Bioconductores bioconductores :: pairwiseAlignment Programación dinámica Ambos Ambos + Extremos libres P. Aboyoun 2008
BioPerl dpAlign Programación dinámica Ambos Ambos + Extremos libres Y. M. Chan 2003
BLASTZ, LASTZ Coincidencia de patrones sembrados Nucleótido Local Schwartz et al. [18] [19] 2004,2009
CUDAlign Alineación de secuencias de ADN de tamaño ilimitado en una o varias GPU Nucleótido Local, semiglobal, global E. Sandes [20] [21] [22] 2011-2015
DNADot Herramienta de diagrama de puntos basada en la web Nucleótido Global R. Bowen 1998
Suite de biología molecular DNASTAR Lasergene Software para alinear secuencias de ADN, ARN, proteína o ADN + proteína mediante algoritmos de alineación de secuencias múltiples y por pares, incluidos MUSCLE, Mauve, MAFFT, Clustal Omega, Jotun Hein, Wilbur-Lipman, Martinez Needleman-Wunsch, Lipman-Pearson y Dotplot. Ambos Ambos DNASTAR 1993-2016
DOTLET Herramienta de trazado de puntos basada en Java Ambos Global M. Pagni y T. Junier 1998
BANQUETE Extensión local de base posterior con modelo descriptivo de evolución Nucleótido Local A. K. Hudek y D. G. Brown 2010
Compilador del genoma Compilador del genoma Alinee archivos de cromatograma (.ab1, .scf) con una secuencia de plantilla, localice errores y corríjalos al instante. Nucleótido Local Corporación del compilador del genoma 2014
G-PAS Programación dinámica basada en GPU con retroceso Ambos Local, semiglobal, global W. Frohmberg, M. Kierzynka y col. 2011
GapMis Hace una alineación de secuencia por pares con un espacio Ambos SemiGlobal K. Frousios, T. Flouri, C. S. Iliopoulos, K. Park, S. P. Pissis, G. Tischler 2012
Mago del genoma Software para búsqueda de motivos de secuencia de ADN local ultrarrápida y alineación por pares para datos NGS (FASTA, FASTQ). ADN Local, semiglobal, global Hepperle D (www.sequentix.de) 2020
GGSEARCH, GLSEARCH Global: Global (GG), Global: Local (GL) alineación con estadísticas Proteína Global en consulta W. Pearson 2007
JAligner Implementación Java de código abierto de Smith-Waterman Ambos Local A. Moustafa 2005
K * Sincronización Secuencia de proteínas a alineación de estructura que incluye estructura secundaria, conservación estructural, perfiles de secuencia derivados de la estructura y puntuaciones de alineación de consenso Proteína Ambos D. Chivian y D. Baker [23] 2003
LALIGN Similitud local múltiple, no superpuesta (mismo algoritmo que SIM) Ambos Local no superpuesto W. Pearson 1991 (algoritmo)
NW-alinear Algoritmo de programación dinámica estándar de Needleman-Wunsch Proteína Global Y Zhang 2012
maligno modelado de alineación modela el contenido de información de las secuencias Nucleótido Ambos D. Powell, L. Allison y T. I. Dix 2004
comparador Alineación local Waterman-Eggert (basado en LALIGN) Ambos Local I. Longden (modificado de W. Pearson) 1999
MCALIGN2 modelos explícitos de evolución indel ADN Global J. Wang et al. 2006
Máscara sufijo basado en árbol Nucleótido Global S. Kurtz et al. 2004
aguja Programación dinámica Needleman-Wunsch Ambos SemiGlobal A. Bleasby 1999
Ngila Costos de brecha logarítmica y afín y modelos explícitos de evolución indele Ambos Global R. Cartwright 2007
noroeste Programación dinámica Needleman-Wunsch Ambos Global A.C.R. Martín 1990-2015
parasail Biblioteca de programación dinámica C / C ++ / Python / Java SIMD para SSE, AVX2 Ambos Global, sin fines, local J. Diario 2015
Sendero Smith-Waterman en el gráfico de retrotraducción de proteínas (detecta cambios de marco a nivel de proteína) Proteína Local M. Gîrdea et al. [24] 2009
PatrónCazador Coincidencia de patrones sembrados Nucleótido Local B. Ma et al. [25] [26] 2002–2004
ProbA (también propA) Muestreo de función de partición estocástica mediante programación dinámica Ambos Global U. Mückstein 2002
PyMOL El comando "alinear" alinea la secuencia y lo aplica a la estructura Proteína Global (por selección) W. L. DeLano 2007
REPUT sufijo basado en árbol Nucleótido Local S. Kurtz et al. 2001
SABERTOOTH Alineación mediante perfiles de conectividad previstos Proteína Global F. Teichert, J. Minning, U. Bastolla y M. Porto 2009
Satsuma Alineaciones paralelas de sintetizador de genoma completo ADN Local M.G. Grabherr et al. 2010
SEQALN Varias programaciones dinámicas Ambos Local o global SRA. Waterman y P. Hardy 1996
SIM, GAP, SIESTA, VUELTA Similitud local con diferentes tratamientos de brechas Ambos Local o global X. Huang y W. Miller 1990-6
SIM Similitud local Ambos Local X. Huang y W. Miller 1991
SPA: Alineación súper por pares Alineación global rápida por pares Nucleótido Global Shen, Yang, Yao, Hwang 2002
BÚSQUEDA Alineación local (Smith-Waterman) con estadísticas Proteína Local W. Pearson 1981 (algoritmo)
Estudio de secuencias Applet de Java que muestra varios algoritmos de [27] Secuencia genérica Local y global A.Meskauskas 1997 (libro de referencia)
SWIFOLD Aceleración Smith-Waterman en FPGA de Intel con OpenCL para secuencias de ADN largas Nucleótido Local E. Rucci [28] [29] 2017-2018
Traje SWIFT Búsqueda rápida de alineación local ADN Local K. Rasmussen, [30] W. Gerlach 2005,2008
camilla Programación dinámica Needleman-Wunsch con memoria optimizada Ambos Global I. Longden (modificado de G. Myers y W. Miller) 1999
tranalign Alinea las secuencias de ácidos nucleicos con una alineación de proteínas. Nucleótido N / A G. Williams (modificado de B. Pearson) 2002
UGENE Fuente abierta Smith-Waterman para SSE / CUDA, buscador de repeticiones y diagrama de puntos de amplificador basado en matrices de sufijos Ambos Ambos UniPro 2010
agua Programación dinámica Smith-Waterman Ambos Local A. Bleasby 1999
palabra k-tuple emparejamiento por pares Ambos N / A I. Longden 1998
YASS Coincidencia de patrones sembrados Nucleótido Local L. Noe y G. Kucherov [31] 2004

*Tipo de secuencia: proteína o nucleótido **Tipo de alineación: local o global

Nombre Descripción Tipo de secuencia * Tipo de alineación ** Autor Año Licencia
ABA Alineación A-Bruijn Proteína Global B.Raphael et al. 2004 Propietario, software gratuito para educación, investigación, sin fines de lucro
CERVEZA INGLESA alineación manual alguna asistencia de software Nucleótidos Local J. Blandy y K. Fogel 1994 (última versión 2007) Gratis, GPL2
ALLALIGN Para moléculas de ADN, ARN y proteínas de hasta 32 MB, alinea todas las secuencias de tamaño K o superior, MSA o dentro de una sola molécula. Las alineaciones similares se agrupan para su análisis. Filtro automático de secuencia repetitiva. Ambos Local E. Wachtel 2017 Gratis
UN MAPA Recocido de secuencia Ambos Global A. Schwartz y L. Pachter 2006
luego. alineación rápida y óptima de tres secuencias utilizando costes de huecos lineales Nucleótidos Global D. Powell, L. Allison y T. I. Dix 2000
BAli-Phy Estimación conjunta probabilística-bayesiana de árbol + alineación múltiple Ambos + Codones Global BD Redelings y MA Suchard 2005 (última versión 2018) Gratis, GPL
Base por base Editor de alineación de secuencia múltiple basado en Java con herramientas de análisis integradas Ambos Local o global R. Brodie et al. 2004 Propietario, software gratuito, debe registrarse
CAOS, DIALIGN Alineación iterativa Ambos Local (preferido) M. Brudno y B. Morgenstern 2003
ClustalW Alineación progresiva Ambos Local o global Thompson et al. 1994 Gratis, LGPL
Alineador CodonCode Compatibilidad con ClustalW y amp Phrap de alineación múltiple Nucleótidos Local o global P. Richterich et al. 2003 (última versión 2009)
Brújula Comparación de múltiples alineaciones de secuencias de proteínas con la evaluación de la significación estadística Proteína Global R.I. Sadreyev, et al. 2009
DESCIFRAR Alineación progresiva-iterativa Ambos Global Erik S. Wright 2014 Gratis, GPL
DIALIGN-TX y DIALIGN-T Método basado en segmentos Ambos Local (preferido) o Global A.R.Subramanian 2005 (última versión 2008)
Alineación de ADN Método basado en segmentos para alineaciones intraespecíficas Ambos Local (preferido) o Global A.Roehl 2005 (última versión 2008)
Ensamblador de secuencia básica de ADN Alineación múltiple Alineación de secuencia completamente automática Corrección automática de ambigüedad Llamador de base interno Alineación de secuencia de línea de comando Nucleótidos Local o global Heracle BioSoft SRL 2006 (última versión 2018) Comercial (algunos módulos son gratuitos)
DNADynamo ADN vinculado a proteína alineación múltiple con MUSCLE, Clustal y Smith-Waterman Ambos Local o global DNADynamo 2004 (versión más reciente 2017)
Suite de biología molecular DNASTAR Lasergene Software para alinear secuencias de ADN, ARN, proteína o ADN + proteína mediante algoritmos de alineación de secuencias múltiples y por pares, incluidos MUSCLE, Mauve, MAFFT, Clustal Omega, Jotun Hein, Wilbur-Lipman, Martinez Needleman-Wunsch, Lipman-Pearson y Dotplot. Ambos Local o global DNASTAR 1993-2016
EDNA Alineación de secuencias múltiples basada en energía para sitios de unión de ADN Nucleótidos Local o global Salama, RA. et al. 2013
FAMSA Alineación progresiva para familias de proteínas extremadamente grandes (cientos de miles de miembros) Proteína Global Deorowicz y col. 2016
FSA Recocido de secuencia Ambos Global R. K. Bradley y col. 2008
Generoso Complemento ClustalW de alineación progresiva-iterativa Ambos Local o global A.J. Drummond et al. 2005 (última versión 2017)
Kalign Alineación progresiva Ambos Global T. Lassmann 2005
MAFFT Alineación progresiva-iterativa Ambos Local o global K. Katoh et al. 2005 Gratis, BSD
MARNA Multi-alineación de ARN ARN Local S. Siebert et al. 2005
MAVID Alineación progresiva Ambos Global N. Bray y L. Pachter 2004
MSA Programación dinámica Ambos Local o global DJ. Lipman et al. 1989 (modificado en 1995)
MSAProbs Programación dinámica Proteína Global Y. Liu, B. Schmidt, D. Maskell 2010
MULTALIN Agrupación dinámica de programación Ambos Local o global F. Corpet 1988
Multi-LAGAN Alineación de programación dinámica progresiva Ambos Global M. Brudno et al. 2003
MÚSCULO Alineación progresiva-iterativa Ambos Local o global R. Edgar 2004
Ópalo Alineación progresiva-iterativa Ambos Local o global T. Wheeler y J. Kececioglu 2007 (última versión estable de 2013, última versión beta de 2016)
Pacana Consistencia probabilística ADN Global B. Patena et al. 2008
Phylo Un marco informático humano para la genómica comparativa para resolver la alineación múltiple Nucleótidos Local o global McGill Bioinformática 2010
PMFastR Alineación progresiva consciente de la estructura ARN Global D. DeBlasio, J Braund, S Zhang 2009
Almendra garapiñada Alineación extendida de homología de consistencia progresiva iterativa con preperfilado y predicción de estructura secundaria Proteína Global J. Heringa 1999 (última versión 2009)
PicXAA Alineación no progresiva con máxima precisión esperada Ambos Global S.M.E. Sahraeian y B.J. Yoon 2010
POA Orden parcial / modelo de Markov oculto Proteína Local o global C. Lee 2002
Probalign Probabilística / coherencia con las probabilidades de la función de partición Proteína Global Roshan y Livesay 2006 Libre, dominio público
ProbCons Probabilista / consistencia Proteína Local o global C. Hacer et al. 2005 Libre, dominio público
PROMALES3D Alineación progresiva / modelo de Markov oculto / Estructura secundaria / Estructura 3D Proteína Global J. Pei et al. 2008
PRRN / PRRP Alineación iterativa (especialmente refinamiento) Proteína Local o global Y. Totoki (basado en O. Gotoh) 1991 y posteriores
PSAlign Alineación que preserva no heurística Ambos Local o global S.H. Sze, Y. Lu, Q. Yang. 2006
RevTrans Combina la alineación de ADN y proteínas, mediante la traducción inversa de la alineación de proteínas a ADN. ADN / Proteína (especial) Local o global Wernersson y Pedersen 2003 (versión más reciente 2005)
SAGA Alineación de secuencia por algoritmo genético Proteína Local o global C. Notredame et al. 1996 (nueva versión 1998)
SAM Modelo de Markov oculto Proteína Local o global A. Krogh et al. 1994 (versión más reciente 2002)
Sello Alineación manual Ambos Local A. Rambaut 2002
StatAlign Coestimación bayesiana de alineación y filogenia (MCMC) Ambos Global A. Novak et al. 2008
Stemloc Predicción de alineación múltiple y estructura secundaria ARN Local o global I. Holmes 2005 Gratis, GPL 3 (parte de DART)
T-Coffee Alineación progresiva más sensible Ambos Local o global C. Notredame et al. 2000 (versión más reciente 2008) Gratis, GPL 2
UGENE Admite alineación múltiple con complementos MUSCLE, KAlign, Clustal y MAFFT Ambos Local o global Equipo UGENE 2010 (versión más reciente 2020) Gratis, GPL 2
VectorAmigos VectorFriends Aligner, complemento MUSCLE y complemento ClustalW Ambos Local o global Equipo de BioFriends 2013 Software gratuito y patentado para uso académico
GLProbs Enfoque basado en el modelo de Markov oculto de pares adaptativos Proteína Global Y. Ye et al. 2013

*Tipo de secuencia: proteína o nucleótido. **Tipo de alineación: local o global


Configure todo su análisis de genoma / exoma en minutos

¿Quieres probar estas funciones por ti mismo? Con nuestra prueba gratuita de 14 días, puede cargar sus propios datos de DNA-Seq y elegir entre una serie de flujos de trabajo probados en batalla, como control de calidad, alineación, anotación de variante y llamada de variante, cobertura, variantes estructurales y número de copia. Vea por qué algunas de las principales instituciones del mundo están utilizando Basepair para ahorrar miles de horas (y dólares) para sus necesidades de análisis de datos NGS.


Alineación

Cuando se conoce el genoma de referencia, la alineación de lecturas cortas con el genoma de referencia generalmente requiere un paso de indexación del genoma que tiene como objetivo reducir y mejorar la eficiencia computacional durante el proceso de mapeo. Los archivos producidos durante la indexación pueden variar según el software utilizado. A continuación, las lecturas se asignan a la secuencia de referencia. El software más utilizado para datos WGS es BWA. Basepair ofrece una canalización con esta herramienta. Como resultado de este paso, se genera un archivo SAM o BAM que contiene información sobre lecturas alineadas. En el caso de Delaware novo assembly, los algoritmos utilizados para realizar este análisis se basan en el ensamblaje de contig, el andamiaje y el relleno de huecos en el borrador del genoma a partir de los fragmentos secuenciados. Basepair ofrece una tubería de ensamblaje de novo que utiliza la herramienta Trinity.


Materiales y métodos

SO y SOFA se han construido y se mantienen utilizando la herramienta de edición de ontologías OBO-Edit. Las ontologías están disponibles en [34].

El FlyBase D. melanogaster [35] Los datos se derivaron de la base de datos relacional GadFly [36] y se convirtieron a Chaos-XML utilizando las herramientas de Bio-Chaos. Las características se anotaron al concepto más profundo de la ontología posible, dada la información disponible. Por ejemplo, el grado de información en las anotaciones fue lo suficientemente profundo como para describir las características de la transcripción con el tipo de ARN como ARNm, o ARNt. Por lo tanto, fue posible restringir el análisis a determinados tipos de transcripciones. Se utilizaron herramientas CGL para validar cada una de las anotaciones, recorrer los genes y consultar las características. Los operadores EM se aplicaron a las características parciales de los genes.

Otros datos de organismos se derivaron de la genomas sección de GenBank [37]. Los archivos planos de GenBank se convirtieron a Chaos-XML compatible con SO utilizando el script cx-genbank2chaos.pl (disponible en [19]) y BioPerl [23]. El analizador de BioPerl GenBank, Bio :: SeqIO :: genbank se utilizó para convertir archivos planos de GenBank en objetos de Bioperl SeqFeature. Las relaciones de características entre estos objetos se infirieron a partir de la información de ubicación utilizando el código Bioperl Bio :: SeqFeature :: Tools :: Unflattener. Los tipos de tabla de características de GenBank se convirtieron a términos SO utilizando la clase Bio :: SeqFeature :: Tools :: TypeMapper, que contiene un mapeo codificado para el subconjunto de la tabla de características de GenBank que se utiliza actualmente en la genomas sección de GenBank. Se utilizó la misma clase de Perl para escribir feature_relationships según los tipos de relación de SO. El análisis EM se realizó sobre las anotaciones Chaos-XML utilizando el conjunto de módulos CGL para iterar sobre las partes de cada gen.


Soluciones de análisis de datos de secuenciación de ADN

Herramientas simples de análisis de secuencia de ADN

Los sistemas de secuenciación de Illumina pueden producir gigabases de datos de secuenciación por día. Nuestras soluciones bioinformáticas intuitivas ayudan a los investigadores a dar sentido a todas esas llamadas de base. Ofrecemos una amplia gama de soluciones de análisis de datos de secuenciación de próxima generación (NGS) integrales y sin problemas, que incluyen herramientas de botón para alineación de secuencias de ADN, llamadas de variantes y visualización de datos.

Analice datos de secuenciación de ADN de genomas completos grandes o pequeños, exomas completos, regiones genéticas específicas y más con nuestro software fácil de usar.

Escalado de exomas a genomas

La plataforma DRAGEN BioIT permite a GeneDx escalar a análisis de genoma completo mientras mantiene los costos bajos, los tiempos de respuesta cortos y la precisión alta.

Beneficios del análisis de datos de secuenciación de ADN con las soluciones de software Illumina

Los datos generados en los instrumentos de secuenciación de Illumina se pueden transferir automáticamente y almacenar de forma segura en Illumina Connected Analytics y BaseSpace Sequence Hub. Este entorno de computación en la nube de genómica presenta una colección de aplicaciones de análisis de datos NGS preferidas por expertos que admiten una amplia gama de estudios y simplifican la gestión de datos NGS. Estas aplicaciones proporcionan soluciones bioinformáticas escalables para el análisis de datos de secuenciación de ADN y otros datos de Illumina.

La plataforma Bio-IT DRAGEN (Dynamic Read Analysis for GENomics) de Illumina proporciona un análisis secundario ultrarrápido y de alta precisión de los datos de NGS, incluidos los datos de experimentos de secuenciación de ADN dirigidos, del exoma y del genoma completo. Disponible en Illumina Connected Analytics, BaseSpace Sequence Hub o en las instalaciones, esta plataforma ofrece una variedad de canales de análisis secundarios acelerados, que van desde la línea germinal a la somática (T / N y solo para tumores), genotipado de articulaciones, metilación, una forma independiente mapear y alinear la tubería, y más.

Además, DRAGEN utiliza compresión genómica sin pérdidas para comprimir y descomprimir rápidamente archivos FASTQ. Esta tecnología reduce la huella de almacenamiento de datos hasta 5 veces, todo mientras preserva la integridad de los datos.


El sistema de gestión y análisis de secuencias - SAMS-2.0: gestión de datos y análisis de secuencias adaptados a los requisitos cambiantes desde la secuenciación tradicional de Sanger hasta las tecnologías de secuenciación ultrarrápida

La secuenciación del ADN juega un papel cada vez más importante en varios campos de la genética. Esto incluye la secuenciación de genomas completos, bibliotecas de clones de ADNc y sondas de comunidades de metagenomas. Las tecnologías de secuenciación aplicadas evolucionan permanentemente. Con la aparición de tecnologías de secuenciación ultrarrápida, ha comenzado recientemente una nueva era de secuenciación de ADN. Al mismo tiempo, surgen las necesidades de herramientas bioinformáticas adaptadas. Dado que la capacidad de procesar conjuntos de datos actuales de manera eficiente es esencial para la genética moderna, se ha diseñado una plataforma de bioinformática modular que proporciona métodos de análisis de secuencias extensos para lograr los requisitos en constante crecimiento. El Sequence Analysis and Management System (SAMS) es una plataforma de software de bioinformática con un backend de base de datos diseñado para respaldar el análisis computacional de (1) secuenciación del genoma bacteriano de escopeta de genoma completo (WGS), (2) secuenciación de ADNc mediante la lectura de etiquetas de secuencia expresada (EST) ) así como (3) datos de secuencia obtenidos mediante secuenciación ultrarrápida. Proporciona un análisis bioinformático extenso de lecturas individuales secuenciadas, bibliotecas de secuenciación y fragmentos de secuencias de ADN arbitrarias, como por ejemplo, contigs ensamblados de lecturas de metagenoma. El sistema se ha implementado para hacer frente a varios miles de secuencias, procesarlas de manera eficiente y almacenar los resultados para su posterior análisis. Con la configuración del proyecto, SAMS reconoce automáticamente el tipo de datos.


Resultados

Evaluación de algoritmos de detección de SV utilizando datos WGS reales y simulados

Accedimos a 79 algoritmos de detección de SV disponibles públicamente que pueden manejar los datos de WGS humanos pero no requieren múltiples muestras, como conjuntos de datos emparejados (por ejemplo, muestras de control y de tumores). Excluimos 10 algoritmos que no funcionaron en nuestro entorno computacional. Los resultados completos se obtuvieron con 69 algoritmos utilizando datos WGS humanos simulados y reales (archivo adicional 1: Tablas S1 y S2, consulte el archivo adicional 1: Tabla S1 para obtener la referencia de cada algoritmo descrito a continuación y el archivo adicional 1: Tabla S2 para la lista de algoritmos sin trabajar) para calcular la precisión y la recuperación. Se generó un conjunto de datos de lectura corta simulada utilizando el simulador VarSim [37]: primero, se generó un genoma diploide humano GRCh37 simulado en el que se habían introducido SV conocidos en los sitios conocidos, y luego se utilizó para generar lecturas cortas simuladas de extremos emparejados ( 125 pb) con un tamaño de inserto de 500 pb con un promedio de cobertura de 30 × del genoma simulado (Sim-A). El número de SV simulados de cada tipo fue ligeramente mayor que el número medio detectado para un genoma humano individual en el proyecto 1000 Genome [6] (p. Ej., 1,3 veces mayor para DEL, archivo adicional 1: Tabla S4-A y S4- C). Se utilizaron cuatro conjuntos de datos de lectura corta NA12878 Illumina (data1, data2, data3 y data4) y tres conjuntos de datos de lectura larga PacBio (PacBio-data1, PacBio-data2 y PacBio-data3) como conjuntos de datos reales y se adquirieron de diferentes fuentes con diferentes longitudes de lectura y / o tamaños de inserción (Archivo adicional 1: Tabla S3). Se generó un conjunto de datos SV de referencia para los datos reales fusionando el conjunto de datos DGV correspondiente a NA12878 y los datos INS, DEL e INV detectados en conjuntos de lectura larga NA12878 (archivo adicional 1: Tabla S4, consulte la sección "Métodos" para obtener más detalles).

Estos conjuntos de datos, incluidos los datos simulados y cuatro o tres conjuntos de datos NA12878, se alinearon con el genoma de referencia GRCh37d5 utilizando bwa [38] u otras herramientas de alineación específicas (consulte la sección "Métodos"). Los datos de alineación o los datos leídos se utilizaron luego para llamar a DEL, DUP, INS e INV en todos los cromosomas excepto en el Y para los datos reales. Las translocaciones no se evaluaron porque hay pocas translocaciones conocidas en las bases de datos y VarSim no puede simular las translocaciones. Para DEL y DUP, los SV se dividieron en cuatro y tres categorías, respectivamente, según sus tamaños (DEL-SS: 50-100 pb DEL-S y DUP-S, 100 pb a 1 kb DEL-M y DUP-M, 1-100 kb DEL-L y DUP-L, 100 kb a 1 Mb). Definimos SV verdaderos como los SV llamados que se superponen significativamente con los SV de referencia en proporciones (≧ 50% [o ≧ 80% para los datos simulados] superposición recíproca para DEL, DUP e INV se superponen con un BP ± 200 pb para INS ). El esquema de todos los procesos de evaluación se presenta en la Figura S1 en el archivo adicional 1.

Observamos cambios en la precisión y la recuperación mediante el uso de diferentes umbrales de filtrado, el número mínimo de lecturas que admiten los denominados SV, denominados "RSS" (Lecturas de apoyo a SV) en este estudio (consulte el archivo adicional 1: Figura S2 para ver ejemplos representativos). Por lo tanto, para comparar el rendimiento de cada algoritmo de la manera más objetiva posible, seleccionamos un RSS para cada conjunto de llamadas en el que el número de llamadas para un tipo de SV se aproxima a los datos de referencia simulados o al número esperado de SV en un individuo (ver la sección “ Sección Métodos ”para más detalles). Tanto la precisión como la recuperación se calcularon para cada rango de tamaño de DEL (archivo adicional 1: Figura S3), DUP (archivo adicional 1: Figura S4), INS e INV (archivo adicional 1: Figura S5) para los datos reales, la media Se presentan la precisión y la recuperación de los cuatro conjuntos de datos de lectura breve. Los datos numéricos para todos los resultados para el Sim-A y múltiples conjuntos de datos reales NA12878 se presentan en las Tablas S5-S9 en el archivo adicional 3. Los valores de precisión y recuperación en los RSS seleccionados para los cuatro conjuntos de datos reales NA12878 y la media y el estándar desviación (SD) se presentan en la Tabla S10 en el archivo adicional 3.

La precisión y la recuperación para llamar a los SV variaron mucho según el algoritmo, el tipo de SV y el tamaño del SV. Las Figuras 1 y 2 destacan una serie de algoritmos que detectan de manera específica y / o sensible SV para cada tipo de SV y para cada rango de tamaño de SV (consulte también el archivo adicional 1: Figuras S3-S5 para gráficos de recuperación de precisión). La Figura 1 muestra las estadísticas combinadas (F-medida) para la precisión y recuperación de cada algoritmo para llamar a cada tipo de SV y resalta un subconjunto de algoritmos que pueden llamar a muchos SV con un alto nivel de precisión y recuperación para conjuntos de datos simulados y reales, que incluyen 1-2-3- SV [39], DELLY [32], GRIDSS [40], inGAP-sv [41], Lumpy [35], Manta [42], MetaSV [43], Pindel [34], SoftSV [44], SvABA [45 ] y Wham [46]. Aunque muchos de los algoritmos que llaman DEL o DUP cubrían todos los rangos de tamaño (S, M y L) tanto para los conjuntos de datos simulados como para los reales, un subconjunto de algoritmos exhibió un rendimiento limitado en un rango de tamaño específico (Fig.2). Por ejemplo, CLEVER [47] detectó con menos eficacia DEL grandes y algoritmos basados ​​en profundidad (p. Ej., AS-GENESENG [48], Control-FREEC [49], CNVnator, OncoSNP-Seq [50], readDepth [51] y GenomeSTRiP [33]) detectó con menor eficacia los DEL y / o los DUP pequeños.

Especificidad del tipo de SV de los algoritmos de detección de SV. La precisión y recuperación de DEL, DUP, INS e INV se determinaron con la simulación (a) y los datos reales NA12878 (B). Modificado F-medidas (las estadísticas combinadas para precisión y recuperación (consulte la sección "Métodos" para obtener más detalles)) se muestran para los algoritmos indicados con azul (para DEL), rojo (para DUP), naranja (para INS) y púrpura (para INV) barras. Se indican los valores medios de los resultados obtenidos con los cuatro conjuntos de datos reales NA12878 (tres conjuntos de datos PacBio para lecturas largas). Los algoritmos se categorizaron de acuerdo con los métodos utilizados para detectar señales SV (RP, pares de lectura SR, lecturas divididas RD, profundidad de lectura AS, ensamblaje LR, lecturas largas) y sus métodos combinados (RP-SR, RP-RD, RP-AS , RP-SR-AS y RP-SR-RD)

Especificidad del rango de tamaño de los algoritmos de detección de SV para DEL y DUP. Precisión y recuperación de cada rango de tamaño de DEL (a, B) y DUP (C, D) se determinaron con el simulado (a, C) y los datos reales NA12878 (B, D). Modificado FLas medidas (las estadísticas combinadas de precisión y recuperación) se muestran para los algoritmos indicados con naranja (para S, 100 bp a 1 kb), azul (para M, 1 a 100 kb) y rojo (para L, 100 kb a 1 Mb) barras. Se indican los valores medios de los resultados obtenidos con los cuatro (o tres) conjuntos de datos reales NA12878. Los algoritmos se categorizaron de acuerdo con los métodos utilizados para detectar señales de SV, como en la Fig.1

Los algoritmos comparados en este estudio se basan en una de las 10 clases de métodos, incluidos RP, RD, SR, AS o LR solo, o uno de los cinco métodos combinados (RP-RD, RP-SR, RP-AS, RP- RD-S y RP-SR-AS) (Archivo adicional 1: Tabla S1). Para llamar a DEL y DUP, los métodos SR, LR y RP-SR-AS lograron un rendimiento relativamente bueno tanto con los datos simulados como con los reales, como se muestra en los gráficos de recuperación de precisión para los 10 métodos de detección de SV categorizados (archivo adicional 1: Figura S6).

Además, determinamos posibles llamadas de falsos positivos para cada algoritmo utilizando datos de pedigrí NA12878, NA12878 para niños y NA12891 y NA12892 para padres (Archivo adicional 1: Tabla S3). Las variantes presentes solo en el niño, pero no en ambos padres, son atribuibles a errores de herencia mendeliana o variantes de novo. Debido a que la ocurrencia de SV de novo es bastante baja y, por lo tanto, insignificante [28], las llamadas de SV del hijo único se derivan de errores de herencia mendeliana o de llamadas falsas negativas en los padres. Determinamos la tasa de error de herencia mendeliana (MIER el porcentaje de errores de herencia mendeliana en las llamadas totales) para cada algoritmo en cada tipo de SV. Observamos una correlación débil entre "100 - MIER" y la precisión para cada algoritmo en cada tipo de SV (los coeficientes de correlación de rango de Spearman, 0.31

0,46 para cada tipo de SV) (Archivo adicional 1: Figura S7 y Archivo adicional 3: Tablas S6 – S10 para datos numéricos). La correlación débil puede deberse a llamadas falsas negativas en los padres y / o la presencia de falsos positivos que se llaman comúnmente entre padres e hijos.

Evaluación con datos HG00514 WGS

Además, evaluamos el algoritmo de detección de SV utilizando otros datos reales de WGS de un individuo chino Han HG00514 (archivo adicional 1: Tabla S3), que es uno de los datos utilizados en el Consorcio de Variación Estructural del Genoma Humano (HGSV). En HGSV, se había generado un conjunto de SV HG00514 utilizando 13 algoritmos de detección de SV cortos basados ​​en lectura y utilizando un enfoque con conjuntos largos basados ​​en lectura [36]. Usamos este conjunto de SV como un conjunto de SV de referencia, aunque carecía de INV (archivo adicional 1: Tabla S4, consulte la sección "Métodos" para obtener más detalles). Mostramos el rendimiento de cada algoritmo para cada tipo de SV y para cada rango de tamaño de SV usando F-medida (Archivo adicional 1: Figuras S8 y S9) y uso de gráficos de recuperación de precisión (Archivo adicional 1: Figuras S10 y S11, y Archivo adicional 3: Tabla S11 para datos numéricos), como se demostró para los conjuntos de datos NA12878 en la sección anterior . Aunque la tendencia de precisión y recuperación entre algoritmos fue similar a la de los resultados de NA12878, los valores de precisión general, especialmente para DELs, fueron más bajos que los de NA12878 (precisión media en HG00514: 53,6 para DEL, 22,5 para DUP, 42,9 para INS de precisión media en NA12878: 62.0 para DEL, 27.9 para DUP, 47.7 para INS).

Examinamos la correlación en las precisiones de llamadas de SV entre los seis conjuntos de datos (los cuatro conjuntos de datos reales NA12878, un conjunto de datos reales HG00514 y un conjunto de datos de simulación), comparando los rangos de precisión de los algoritmos entre tipos de SV y / o conjuntos de datos con la correlación de rango de Spearman coeficientes (archivo adicional 1: Figura S12). The rank correlation coefficients for these algorithms were high (> 0.7 for almost all cases) for all types of SV between the five real datasets, suggesting that the determined SV calling accuracies for the tested algorithms were robust at least among the NA12878 and HG00514 datasets. The accuracy ranks between the simulated and NA12878 real datasets correlated reasonably well for DELs (0.72) and INSs (0.61) but weakly correlated for INVs (0.57) and DUPs (0.48). This result suggests that the simulated data fails to accurately model the mechanisms of SV formation, especially the properties of the real DUPs and INVs, which often involve complex SVs in which other types of SVs are integrated [24]. Alternatively, DUPs and INVs for NA12878 may be insufficiently represented in the reference databases. Exceptionally, the accuracy ranks for DUPs between the simulated and HG00514 real datasets (0.72) were considerably higher than those between the simulated and NA12878 real datasets (0.49). This high correlation is probably because HG00514 DUPs reported in HGSV have been detected mainly with short read-based SV detection algorithms [36], in contrast with NA12878 DUPs that are derived mainly from array-based detection. On the other hand, the high correlation between all the datasets observed for DELs was probably because the NA12878 reference DELs were covered with the datasets derived from both array-based and assembly-based SV detection.

Evaluation of algorithms that call MEIs, NUMTs, and VEIs

Based on the identity of the inserted sequence, some INSs can be classified into special classes including MEIs, NUMTs, and VEIs. Thus, we next evaluated the subset of computational algorithms that detect specific classes of INSs. We used three different simulated datasets (Sim-MEI, Sim-NUMT, and Sim-VEI, generated using only the chr17 sequence see the “Methods” section) and the four NA12878 real datasets to evaluate the performances of 12 algorithms and an additional five derivatives of three algorithms (Fig. 3, and see Additional file 3: Tables S5–S10 for the numerical data). For the real data, the numbers of true positives (TPs) was determined in place of recall, because MEI, NUMT, and VEI have not been defined for the NA12878 INS reference. We added NUMT-compatible versions of Mobster [52], MELT [53], and Tangram [54] (Mobster-numt, MELT-numt, and Tangram-numt) and VEI-compatible versions of Mobster and Tangram (Mobster-vei, Tangram-vei) to NUMT- and VEI-detection algorithms, respectively (see Additional file 4: Supplementary methods for detail).

Precision and recall of MEIs, NUMTs, and VEIs called using existing algorithms. MEI (a, B), NUMT, and VEI (C, D) insertions were called using the indicated algorithms and simulated data (a, C) and the real data (B, D). NUMTs and VEIs were called using algorithms including modified versions of Mobster, MELT, and Tangram (Mobster-numt, Mobster-vei, MELT-numt, Tangram-numt, and Tangram-vei). For the real data, the mean values of the results obtained with the four NA12878 real datasets (data1 to data4) are indicated. VirusFinder and HGT-ID could not be applied to accomplish the runs for the real data due to unresolvable errors. The precision and recall percentages (or the number of true positives for the real data) determined for the respective call sets are indicated on the X-axis and y-axis, respectively. The data labeled with (+len) were determined considering insertion length in addition to breakpoints in (a). In this case, called sites were judged as true when the ratio of the called MEI lengths and the matched reference MEI length was ≧ 0.5 and ≦ 2.0. The algorithms without the label do not output the defined length of insertions

For MEI calling, MELT and Mobster achieved higher performances with both the simulated and real data than the other algorithms (> 88% in precision and > 50% in recall [> 900 TPs], Fig. 3a and b). Although MELT had the highest recall for MEI calling, RetroSeq, Tangram, and Mobster exhibited higher recall metrics in calling simulated LINE1 than MELT (Additional file 3: Table S5). For NUMT, MELT-numt exhibited the highest precision (> 92%) both with the simulated and the real data but exhibited only 20% recall with the simulated data (Fig. 3c and d). A more increased recall for NUMT calling may be achieved by a combination with Tangram-numt or DINUMT, because MELT-numt calls exhibited only 67% overlap with the Tangram-numt or DINUMT calls. For VEI, Mobster-vei had the highest precision (100%) and recall (

90%) in the simulated data (Fig. 3c).

Evaluation of algorithms with long read data

We evaluated the performances of three SV detection algorithms with long read data, including PBHoney [22], Sniffles [55], and pbsv [56]. We also added a modified PBHoney algorithm (PBHoney-NGM), which used NGM-LR as alignment tool (see the “Methods” section). To generate a simulated dataset of long reads, PacBio long reads (average 7.5–20 kb) aimed at 10× coverage were simulated with Sim-A using the PBSIM simulator [57] (Fig. 4, Additional file 1: Table S3). For real data, we used long read datasets from three individuals: NA12878 (PacBio-data1 to PacBio-data3), HG002 (PacBio-HG002), and HG00524 (PacBio-HG00524) to determine precision and recall (Additional file 1: Table S3). pbsv achieved the highest precision and recall in DEL calling with the simulated data (Fig. 4, Additional file 3: Tables S5-S10 for the numerical data). Overall, however, the three algorithms exhibited similar accuracy in the real data, especially in the HG002 data. Although the input datasets used for evaluation of short read-based and long read-based algorithms were different, we compared the evaluation results of these three detection algorithms with those of short read-based ones (Figs. 1 and 2, Additional file 1: Figures S3–S5 and S8–S11). The long read-based algorithms exhibited good performances in calling short DELs (DEL-SS and DEL-S) and INSs despite the lower coverage of the long read data (10×) than that of the short read data (30×).

Precision and recall of SV detection algorithms with long read data. Precision and recall determined with the Sim-A-PacBio simulated data (a), the NA12878 real datasets (B), the PacBio-HG002 real data (C), and the PacBio-HG00514 real data (D). For the NA12878 data, the mean values of the results obtained with the three NA12878 long read datasets (PacBio-data1 to PacBio-data3) are indicated

Effect of different properties of read data on detection accuracy

We examined how read and library characteristics affect the precision and recall of SV calling among algorithms with relatively high precision and/or recall for each type and each size range. We generated datasets with different read lengths (100 bp, 125 bp, and 150 bp), read coverage (10×, 20×, 30×, and 60×), and library insert size (400 bp, 500 bp, and 600 bp) and evaluated the SV calling accuracies of the algorithms with these datasets (Additional file 2: Figure S13).

Changes in read coverage prominently affected recall and precision (see Additional file 1: Tables S12 and S13 for the summarized and statistical results). Data with higher coverage exhibited higher recall due to an increased number of signals including discordant reads and split reads. Interestingly, for many algorithms data with higher coverage resulted in lower precision than data with lower coverage when compared at the same threshold of RSS (as representative examples, see Additional file 2: Figure S13-A, S13-N, S13-X, S13-Z, S13-AJ, S13-AN, S13-AS, and S13-AU). In many cases, the precision using high-coverage data was comparable to that with lower coverage when the threshold values of RSS were increased (Additional file 2: Figure S13-M, S13-T, S13-X, S13-Y, S13-AB, S13-AD, S13-AH, S13-AL, S13-AN, S13-AP, S13-AR, and S13-AU). These results suggest that increasing the read coverage results in an increased number of spuriously aligned reads that lead to miscalling of SVs. In contrast to read coverage, neither read length nor insert size greatly affected recall and precision. We noted overall moderate effects on recall and precision for INS calling, while larger insert sizes led to greater than 10% decreased recall for DEL calling for several algorithms including BreakDancer [30], DELLY, inGAP-sv, Meerkat [58], and RAPTR-SV [59] (Additional file 1: Tables S12 and S13).

Accuracy for calling breakpoints, sizes, and genotypes of SVs

We evaluated the accuracy with which each algorithm called breakpoints (BPs) and SV length (both calculated in root mean squared errors, RMSEs) using the Sim-A data (Additional file 3: Table S14 also see the “Methods” section for RMSEs). BreakSeek [60], BreakSeq2 [61], CREST [62], DELLY, GRIDSS, PBHoney-NGM, pbsv, SvABA, SVseq2 [63], and Wham achieved the highest accuracy (< 60-bp RMSE) for calling BPs for all size ranges of the DELs and/or DUPs. CREST, Manta, FermiKit [64], Pamir [65], pbsv, SVseq2, SoftSearch [66], Wham, and the specific INS detection algorithms (MEI and NUMT algorithms) exhibited the highest accuracy (< 10-bp RMSE) for calling INS BPs. Most algorithms that called BPs accurately used the split reads-based or assembly-based methods whereas algorithms only using the read depth-based alone approach exhibited poor BP resolution. BreakSeek, BreakSeq2, CLEVER, CREST, DELLY, FermiKit, GASVPro [67], GRIDSS, inGAP-sv, laSV [68], Lumpy, Manta, PBHoney-NGM, pbsv, PRISM [69], SvABA, SVseq2, and Wham provided higher accuracy (< 100-bp RMSV) for lengths of called DELs and/or DUPs, and most of these algorithms used the read pair-based or assembly-based method. These results suggest that the basic method used in SV detection algorithms affects the resolution of the called BPs and sizes.

Twenty-two algorithms used in this study call the genotypes or copy number associated with the detected SVs. We determined the precision and recall of the SV genotypes called with these algorithms using the Sim-A and NA12878 real datasets (Additional file 1: Figure S14 and Table S15). In the real datasets, only 335 DELs and 120 DUPs with specified genotype information were available. For the real DEL data, most algorithms exhibited > 95% precision. In contrast, most of the called DUPs did not match the 120 reference DUPs, limiting interpretation (Additional file 1: Table S15). For the simulated DEL data, Manta, Lumpy, Pindel, and ERDS [70] exhibited top performance in terms of both precision (> 90%) and recall (> 1900 TPs). PennCNV-Seq, CNVnator, BICseq2 [71], and readDepth exhibited high precision (> 89%) and recall (> 800 TPs) for the DUP data. For the INS data, Manta achieved the best performance, with > 97% precision. We note that algorithms with high performance genotype calling are also algorithms with good SV detection precision and recall.

Run time and memory consumption

Figure 5 shows run time and maximum memory per CPU for each SV detection algorithm, which were determined with 30× short read data (10× for long reads) of the NA12878 data1 that were aligned to the NA12878 chromosome 8 (146 Mb). SV detection algorithms directly using fastq read files (FermiKit, laSV, MinTheGap, Pamir, ITIS, and VirusSeq), many of which use the assembly method, exhibited long run time and large memory consumption. Algorithms requiring specific alignment tools, including VariationHunter [72] and long read-based algorithms, took longer run time than the standard algorithms using BWA. Pindel, known as a popular algorithm, also took longer run time although it exhibited good SV calling accuracy. Many of algorithms using the read depth method or detecting viral element insertions consumed larger memory than the others.

a, B Run time and memory consumption for SV detection algorithms. A bam or fastq files of the reads aligned to the NA12878 chromosome 8 (NA12878 data1 or PacBio-data1) was used as input data, and GRCh37 chr8 fasta file was used as reference. Each of the indicated algorithms was run using a single CPU. For VH (VariationHunter) and PBHoney, the data obtained together with the run of the indicated alignment tools (BL, BLASR NG, NGM-LR) are also shown. For MetaSV, run time and maximum memory without those spent on Pindel and the other required tools are indicated. The algorithms were categorized according to the methods used to detect SV signals (RP, SR, RD, AS, LR, MEI/NUMT/VEI, and others) and their combined methods (RP-SR, RP-RD, RP-AS, RP-SR-AS, and RP-SR-RD)

Systematic identification of pairs of algorithms showing high accuracy in their overlapping, called SVs

The above results revealed that the precision and recall with which a given algorithm calls SVs varies widely and depends on the types and size ranges of the SVs. However, few algorithms could call SVs with high precision, especially for DUP, INS, and INV of the real data, although the real dataset is likely to be incomplete (i.e., there are unidentified true SVs not present in our reference SV set). Several studies have taken the strategy of selecting SVs that are commonly called by multiple algorithms to increase the precision of the called SVs [13, 14, 24,25,26,27,28,29]. However, there has been no systematic investigation into optimal strategies to combine the results of multiple algorithms. We selected a total of 51 algorithms (12–38 algorithms for each SV type and size range) that exhibited relatively high precision and recall [the sum of recall (or precision) of the simulated and the NA12878 real data is > 10 for INS and INV or > 30 for the other types of SVs] for each type and each size range, and determined the precision and recall of the SVs that were commonly called for each combination of pairs of algorithms (Fig. 6 for INS and Additional file 1: Figures S15–S22 for DEL, DUP, and INV, also see Additional file 3: Table S16). The set of SVs called in common by two algorithms was more precise than the SVs called with either algorithm alone, as expected, yet this came at the cost of decreased recall. The degree of increased precision and decreased recall was varied depending on the algorithm combination. Combinations of algorithms that yielded more precise calls for a given type and size range of SV in both the simulated and real data are highlighted (Fig. 6 and Additional file 1: Figures S15–S22). We calculated the mean precision and recall values of overlapped calls between pairs of algorithms for each SV category (Additional file 1: Figure S23, Additional file 3: Table S17). As expected, high precision in the overlapped calls was often observed in pairs containing an algorithm exhibiting high precision by itself. Interestingly, however, several algorithms with a moderate level of precision in an SV category yielded higher precision in their overlapped calls. Examples of such good “team players” include CREST and VariationHunter in the DEL category and BASIL-ANISE [73] and BreakSeek in the INS category, each of which showed over twofold increase in combination with another algorithm.

Recall and precision of SVs commonly called between a pair of SV detection algorithms for the INS category. INSs, called from the indicated algorithms, were filtered with the minimum number of reads supporting the called SVs, indicated with the suffix number of the algorithm name. The INSs overlapping between the filtered SV sets from a pair of the indicated algorithms were selected, and the recall and precision of the selected INSs were determined. Recall and precision percentages are presented with an intervening slash, and the recall/precision values for the simulated and real data are indicated in the upper and lower lines of each cell, respectively. Results for the real data represent the mean values of the values determined with four different NA12878 datasets (three PacBio datasets for long reads). The recall/precision values for the individual algorithm are indicated with blue letters and a white background. The data contained in the top 20th percentile of the combined precision scores (see the “Methods” section for details) for the simulated and real data are highlighted with a red background, and the next data contained in the top 21st to 50th percentile of the combined precision scores are shown with a pale red background. “–” indicates undetermined data

We then examined how precision and recall change when combining algorithms across the six SV detection methods, including RP, SR, RD, AS, LR, and CB (Fig. 7 and Additional file 3: Table S18). The DEL-calling precision increased less than the other types of SV because precision was already high. In general, combinations of algorithms from two different method class led to higher precision but lower recall than two algorithms using the same methods (mean fold change of precision: 1.63× for the same method and 1.82× for different methods mean fold change of recall, 0.5× for the same method and 0.33× for different methods) (Fig. 7). These results suggest that combining algorithms from two different methods is a better strategy for obtaining an accurate representation of SV than using two algorithms of the same class. However, the results also suggest that the importance of obtaining overlapping SV calls with high precision and high recall to select good pairs of algorithms, irrespective of the combination of methods used in the algorithms.

Increased or decreased rates of precision and recall of overlapped calls between various SV detection methods. Precision and recall values of overlapped calls between pairs of algorithms based on the indicated six different methods were determined for different SV categories (DEL-M (a), DEL-L (B), DUP-S (C), DUP-M (D), DUP-L (mi), INS (F), and INV (gramo)) using four sets of NA12878 real data. The mean values (presented in Additional file 3: Table S18 in detail) were summarized based on pairs of methods (method 1 and method 2) by calculating the fold increase of precision or recall of overlapped calls relative to those for method 1 alone. RP, method using read pairs-based signal RD, method using read depth-based signal SR, method using split (soft-clipped) reads-based signal AS, assembly-based approach LR, method using long reads, CB combined method using two or more methods out of RP, SR, RD, and AS


Genetic variants filtering¶

Resulting genetic variants files, annotated or not, can be opened in the Variant Explorer app. In the Variant Explorer you can interactively explore the information about found mutations, as well as sort and filter them by specific factors such as: locus, type of variants (SNP, INS, DEL, MNP), reference or alternative allele, Phred-scaled probability that the alternative allele is called incorrectly, and for annotated variants by their predicted effect, impact and functional class. Besides that, the app computes genotype frequencies for homozygous samples with reference and alternative alleles (GF HOM REF and GF HOM ALT columns, respectively), reads depth for homozygous samples with alternative allele (DP HOM ALT) and reads depth for heterozygous samples (DP HET). To prioritise found mutations open an annotated genetic variants file in the Variant Explorer: right-click on the resulting file name in the Data Flow Runner, Task Manager or File Browser and select Variant Explorer in the context menu. In total 4,361,389 variants were found.

Let’s now use the filters to see how many of these are high impact variants. Set the filter “Impact” to “high”. As we can see out of all the identified variants 1007 have a high impact.

Let’s now see how many of these are nonsense mutations by applying “Functional class” filter. And now out of all the high impact variants, 154 are nonsense mutations.

Let’s see how many of those are found on chromosome 10 by specifying the chromosome in the “Locus”. Turns out on chromosome 10 there only one variant change that is high impact nonsense mutation. This base change is located in CTBP2 gene, and result in a premature stop codon.

These are all of the steps of WGS data analysis pipeline. You can use files from our tutorial folder to reproduce the results. Feel free to perform further prioritisation, play with filters in Variant Explorer to get more information. For example, you may want to find out, how many InDels results in frame-shift, codon deletion or explore variant distribution on any region of interest etc. In summary, our analysis allowed to identify 3,835,537 SNPs. We also identified 252,548 insertions and 301,169 deletions ranging from -43 to 28 bp. Although our results are in concordance with original paper, there are also some differences in number of identified mutations or InDel length distribution we mentioned above. Such variation could be explained by the use of different tools. For example, authors identified variants with the vendor-supplied Eland-Casava pipeline and The Genome Analysis Toolkit (GATK v2.2), while we used Variant Calling application based on SAMtools and BCFtools.

This is the end of this tutorial. We hope you found it useful and that you are now ready to make the most out of our platform. If you have any questions and comments, feel free to email us at support @ genestack . com. Also we invite you to follow us on Twitter @genestack.