GRC｜SinoGreen

Sentieon

RECOMB 快讯：Sentieon在precisionFDA多组学数据挑战赛夺冠

09.May
2019

2019年5月4号到8号，国际计算生物学会在乔治华盛顿大学举办了RECOMB 2019年会。这是国际计算生物学最重要的年会之一。在今年的RECOMB Dream卫星会上，美国FDA和NCI宣布了PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge（多组学数据分析和样本标签校正挑战赛）的结果，并为获胜方颁奖。这次挑战赛分两个阶段比赛(Subchallenge1 and Subchallenge2)。在第一阶段比赛，全球51个参赛团队共提交了148个方法，Sentieon获第一名；在第二阶段，共有30个参赛团队提交了82个方法，Sentieon与另外两位参赛者获并列满分。在这次会议上，Sentieon接受了组委会颁奖，并受邀做了主题演讲。会议内容网页可点击文末“阅读原文”进入。

PrecisionFDA挑战赛和Sentieon

美国食品药物监督局FDA从2016年开始，多次在基因组信息学平台precisionFDA上组织精准医学数据分析挑战赛，邀请全球学术界和工业界的专家团队参与并提交自己的算法。FDA希望通过挑战赛，以及赛后方法学的分享和讨论，推动组学数据分析方法的探索和创新，为精准医疗提供方法学支持，推动创新，进而制定行业的标准。

Sentieon继2016年赢得precisionFDA Truth Challenge和Consistency Challenge，2017年赢得precisionFDA Hidden Treasures – Warm Up Challenge之后，在2018底又一次参与precisionFDA主办的多组学数据分析挑战赛（PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge），并再次获得第一名。与以往挑战赛不同的是，本次比赛突破了单一数据类型的分析，首次以多组学的视角要求参赛者同时分析同一病人的转录组（Transcriptome），蛋白组(Proteome)，以及临床表型数据(Clinical Data)，力求通过机器学习算法在有限训练集内建立三类数据之间关系的模型。

多组学数据分析的重要性

随着包括NGS在内的组学检测工具的飞速发展，在同一个体上获取基因组、转录组、蛋白组、甲基组、表型组等多组学大数据已经渐渐成为现实。多组学数据的价值在于能精确地将数据中的信息完整提炼成能够反映复杂分子相互作用的模型。这样的模型可以极大的深化研究人员对于疾病机理的理解，继而应用在临床实践上，例如通过病人基因组和蛋白组的数据预测肿瘤的临床预后。

当前，多组学的联合分析还处于较为初期阶段，对于微弱信号的挖掘能力还较弱。机器学习作为复杂数据分析的有力工具，正被逐步应用。然而，面对当前有限的训练数据集，如何实现在高维度多组学数据的精准建模仍是一个重要课题。这也是本次挑战赛的核心目的。

与以往precisionFDA挑战赛一样，本次大赛吸引了来自学术界，工业界的广泛关注，参加比赛提交模型的机构包括Stanford University, University of Oxford, University of Michigan, Georgia Tech, Cornell University, University of Southern California, CEA France, University of Copenhagen, Cleveland Clinic等世界知名大学和研究机构的相关团队。同时比赛也吸引了非传统医学研究领域的AI研究的专家，包括了Deloitte以及Taiwan AI Labs。值得一提的是，在这次比赛中出现了多个来自亚洲的结果提交，包括了香港中文大学，北京大学，Korea University, 以及Biomedical Informatics Centre, India NICED等工业界和政府机构。每个参赛团队都根据自己的模型提交了一个或者多个结果。

冠军队伍的成绩和方法

本次挑战赛的目标是根据多组学数据鉴定出测试集样本中人的错误标记(mislabeling)，具体分为两个阶段：第一阶段给出训练集和测试集的蛋白组和临床表型数据，要求参赛者发现测试集里的错误标记；第二阶段追加RNA-seq数据，并要求参赛者不但要指明错误标记，还要将其纠正。

最后将两次提交结果和真集进行比对，并在挑战赛网站公布前三名：

Subchallenge1 结果:

https://precision.fda.gov/challenges/4/view/results

Subchallenge2 结果:

https://precision.fda.gov/challenges/5/view/results

来自Sentieon公司的Renke Pan在第一阶段获得了冠军，在第二阶段的比赛中与另两位参赛团队并列满分。Sentieon也是唯一一个两个阶段都进入前三名的参赛者。

5月4日，Sentieon受挑战赛主办方的邀请在RECOMB 2019大会上介绍了所使用的模型方法，摘要已发表在会议网站上。点击文末“阅读原文”进入

“In Subchallenge 1, for mislabeled sample detection, we apply an ensemble approach, combining statistical inference models such as Least Absolute Shrinkage and Selection Operator (LASSO), Nearest Shrunken Centroid (NSC), and k-Nearest Neighbors (k-NN), to identify mismatched clinical and protein profiles. In Subchallenge 2, for sample mislabeling correction, we use the same machine learning ensemble methodology to give accurate predictions of clinical labels based on the samples’ protein and RNA abundance. In addition, to jointly analyze measurements from both mass spectrometry and RNA-Seq, we build regression models for each gene as a bridge to map the two data types to each other, which enable a novel definition of distance matrix between proteomic and transcriptomic profiling data. The sample mislabeling correction problem is thus reformulated into an optimization problem of matching proteomic and transcriptomic data with the shortest distance. This method achieves perfect correction, assuring “right data for right patient”.

“在挑战1中，为了检测标记错误的样本，我们采用了集成学习的方法，通过结合不同的统计推断模型，如LASSO算法， NSC和k-NN算法，来识别临床标签和蛋白质谱不匹配的样本。在挑战2中，为了校正错误的样品标记，我们使用了相同的集成学习的机器学习方法，基于样品的蛋白质和RNA丰度，预测正确的临床标签。此外，为了联合分析质谱和RNA-Seq的测量结果，我们针对每个基因建立了回归模型，实现了两种数据类型的相互映射，从而全新地定义了蛋白质组学和转录组学数据之间的距离矩阵。因此，校正错误样品标记的问题，被转化为匹配蛋白质组和转录组数据之间最短距离的优化问题。该方法100%校正了错误标记的样本，确保了“为每一个患者使用正确的数据”。

Renke Pan(左二)代表Sentieon获奖照片。左一：Dr. Henry Rodriguez – Director, NCI Office of Cancer Clinical Proteomics Research; 右二：Dr. Bing Zhang – Professor, Baylor College of Medicine; 右一：Dr. Emily Boja – Program Director, NCI Office of Cancer Clinical Proteomics Research;

Sentieon机器学习模型的应用前景

在本次分析挑战赛数据的过程中，Sentieon团队开发并使用了多种机器学习模型，在背景噪音中精准提取出不同组学数据之间的微弱但确定的关联。

众所周知，相比于在生物影像识别和非生物数据领域的快速应用，AI的应用在组学数据，尤其是基因组数据分析领域，一直受限于可用真集数目。目前只有不超过10个公认的胚系变异真集。而体细胞变异真集需要各个机构通过稀释和人工复核的方式自行维护，因此构建成本高，数据量也非常有限，而临床数据的训练集更是需要长时间和更高的成本来追踪和维护。

Sentieon在这次挑战赛中展现了优秀的AI算法开发和实践的能力，在非常小的样本集上，实现了高维数据的建模，这一点在生物医学多组学模型建立中尤为重要。

目前这套优秀的机器学习算法正在被应用在Sentieon的二次分析软件DNAscope（胚系变异）和TNscope（体细胞变异）中。这套分析方法，一方面保持了DNAseq和TNseq基础算法的稳定性和准确性，另一方面又可以根据用户提供的样本数据作为训练集，针对不同的样本类型，试剂套装，测序平台建立特定模型，大幅提高特定生产环境的准确性和可靠性。我们非常愿意和广大合作伙伴开启合作模式，共同探索Sentieon组学机器学习算法在各项医疗产品上的应用。

Go to the original link