Sentieon
【GRC投资案例】Sentieon与真迈生物联合打造DNA变异检测方案
18.Mar
2022

导言:

Sentieon创立于美国硅谷,是一家在基因测序分析领域具有全球领先技术的服务提供商,也是GRC在生物信息学领域的重点投资项目。

Sentieon提供了二次测序分析的完整解决方案,基于BWA、GATK、HaplotypeCaller、Mutect和Mutect2的分析流程进行了大幅提升,可以部署在任何基于通用CPU的系统结构之上。该方案涵盖了从基因比对到变异检测的全部流程,可同时用于胚系和体细胞突变检测。

Sentieon软件具备数据精准、分析效率高、灵活部署、兼容性强等优点,被业内的制药企业、科研院所、临床医学、农业基因组等领域的用户广泛采用和认可。


原文:


近日,Sentieon团队与深圳真迈生物(GeneMind Biosciences)合作,开发并验证了GenoLab M测序仪与DNAscope专属模型搭配,在标准品全基因组与全外显组重测序的应用,展现出了相对于Illumina测序平台SNP与Indel检测准确度的显著优势。

图片


背景

高通量测序问世已经超过了15年时间,当前二代短读长测序市场基本上被Illumina测序平台所垄断,尤其是2014年推出的桌面测序仪NextSeq500以及2017年推出的大型机NovaSeq6000,代表了这两个级别测序仪的主流水平。然而,业界对于替代测序仪的需求却持续存在,呼唤新的测序平台能够同时满足准确,灵活,低成本的应用需求。

Sentieon的DNAsocpe分析流程基于机器学习原理,相比于开源GATK能够更快更准确的处理DNA测序数据,完成变异检测。相比于针对Illumina平台开发的GATK流程,Sentieon DNAscope可以通过训练不同的机器学习模型,特异性的适配各种测序平台的数据特性,纠正系统性偏差,提升变异检测准确率。

真迈生物于2020年10月推出了全新桌面级测序平台GenoLab M。该平台使用了SBS的技术路径以及可逆终止机理,在之前发表的转录组应用评测中展现了不俗的应用潜力。应广大用户要求,我们通过本文展现了测序平台在DNA重测序这项重要应用中的表现。

在本文中,作者团队使用NA12878标准品DNA生成了全基因组以及全外显子(安捷伦V8)两个文库作为起始材料。然后使用NovaSeq/NextSeq+GATK(使用Sentieon DNAseq模拟)作为标准流程产生基线数据,与GenoLab M+DNAscope适配流程的结果进行准确度的比对。

图片

流程图:使用两种标准品文库,三种测序平台,两种分析工具搭建的项目流程图。

从下图的基本质控数据中可以看出,GanoLab M生成的原始数据的质量值和Illumina平台接近,重复率(Duplication Rate)较低,数据中由于重复而导致浪费的信息较小。

图片

测试数据集的基本质控

全基因组

文章首先分析了Genolab M以及Novaseq在全基因组数据处理中的表现,考虑到测序深度决定了大部分数据生成的成本,我们在33x深度以外又通过降采样增加了22x的浅深度数据进行分析。分析完成后一共生成了4个VCF文件,参考GIAB真集(V4.2.1)计算SNP和Indel检测的灵敏度,特异性,以及综合F-score。可以看出,在全基因组的范围内,Genolab M+DNAscope的灵敏度与特异性都显著超越同深度的Novaseq+GATK结果,并且前者22x深度的整体准确率能够达到后者33x的水平,展现了卓越的成本控制潜力。在基因组的细分区域,也可以看到相似的结论。在segment duplication区域Genolab M展现了更加显著的准确度优势,为该区域相关致病基因的检测带来了更多潜力。

图片

全基因组准确性数据。全基因组范围内 (A) SNP (B) Indel的灵敏度,特异性,F-score;分区分析中,20号染色体,低难度区域(not-in-all-difficult-region),重复区域(seg-dup-region)中(C) SNP (D) Indel的灵敏度,特异性,F-score。

全外显组

在全外显组的准确率评测中,作者同时比对了GenoLab M,NextSeq500,以及NovaSeq6000这三个平台生成的数据,每个数据又被降采样到100x,一共产生6个结果文件进行比对。通过下图可以看出,GenoLab M的灵敏度与Illumina平台类似,但是特异性大幅度领先,最终的综合F-score也较高,可以在100x的深度下达到Illumina平台更高深度才能达到的准确率。

图片

全外显组准确性数据,(A) SNP (B) Indel的灵敏度,特异性,F-score。

另外我们通过下图的一致性分析可以看出,SNP方面三个平台之间的一致性非常高,绝大多数正确的SNP在所有结果文件中都有出现,Indel方面不同平台之间结果略有差异。

图片

全外显组平台间一致性分析 (A)SNP,(B)Indel。

结论

GenoLab M作为新一代的桌面级测序平台,为用户提供了一个新的选择。在本次的标准品评测中,真迈解决方案展现了优异的准确率,这一方面是因为测序平台本身的质量,同时也得益于Sentieon DNAscope特异性适配模型的性能。Sentieon与真迈的技术团队会持续合作,共同推动DNA重测序解决方案的升级与迭代,为业界提供更多更好的技术选择!

关于Sentieon

Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率,准确度,和可靠性。公司自成立以来,多次赢得precisionFDA国际生物信息挑战赛的第一名,包括三次临床多组学联合分析AI建模大赛冠军,展现了业内顶级的研发实力。Sentieon为来自于分子诊断,药物研发,临床医疗等多个领域的合作伙伴和科研机构提供软件解决方案,共同推动基因技术的发展,实现“成就精准数据,服务精准医疗“的愿景。



上一篇 下一篇