从个体到群体的数据循环，看为朔如何构建精准医疗知识库

火石创造 2016-07-26 14:34 抢发第一评

摘要

7月21日晚，火石创造邀请了为朔医学数据（北京）科技有限公司副总裁全雪萍博士，为大家分享“精准医疗数据分析——推动精准医学发展”。全博士为我们介绍了构建精准医疗知识库的必要性和难点，详细分析了精准医疗数据分析平台将如何搭建，以及后续如何应用到群体之中，给精准医疗助一把力！

分享环节

构建精准医疗知识库的必要性

这些年得益于测序技术，特别是二代高通量测序技术的发展，传统医学快速地发展到精准医学，这使我们普通人群快速便宜地获取自身基因组学信息成为可能。

然而，不管是一代Sanger测序、二代高通量测序，还是PCR、生物芯片、免疫组化等常规分子水平检测，都只能告诉我们受检对象组学上的一些变异信息，而不能直接告诉我们根据这些信息临床上该如何决策。

组学变异与临床表型、治疗效果的关联关系不是一个个体样本可以确定的，而是需要大样本的群体研究来证实，也就是说需要循证依据。所以，构建基于客观循证依据的组学变异、临床信息关联知识库成为实现精准医疗临床应用的必然之路。

最近FDA、CSCO纷纷推出指南，明确指出需要通过循证的遗传变异知识库对测序分析结果进行临床注释解读来出具报告。譬如FDA指出，在评估基于NGS的检测时，所应用的知识库必须整合多层次科学证据，并有相应的权重；数据的选择和录入必须有详细明确的标准操作程序并严格按其操作。

早在2011年，为朔的创立者就前瞻性地看到了这一需求和必然趋势，启动构建基于循证文献的精准医学知识库iCMDB。

精准医学知识库的信息来源可分为三类：第一类是公共的组学数据库，如NCBI、Ensembl、dbSNP、OMIM、PharmGKB、ClinVar、COSMIC等，我们可以从中提取变异的组学属性；第二类是FDA、CFDA、EMA、Drugbank、Clinical Trial、NCCN指南、ASCO、ESMO等诊疗数据库，可从中提取临床诊疗方案；第三类则是从公众文献库如Pubmed中获取的海量文献。这些文本文献中的研究提供了关联临床表型、组学变异与诊疗效果这三方面的关系证据。iCMDB在从这些文献中结构化提取信息时，会针对每一项研究提供的证据，提取其研究设计方案、研究对象、样本量大小等数据，给出详细的循证等级和权重，并经多重人工审核，尽可能提供准确客观的依据。因此iCMDB已在新加坡获得三类医疗器械资质，CFDA、FDA也已在同步报批中。（附，最新消息，iCMDB已作为美国西奈山医院得精准医学整体流程的一部分通过了FDA CAP认证）

构建知识库的难点

构建知识库的最大难点在于如何整合不同来源、不同层次、不同结构的多维数据和信息。

▍匹配不同的系统来源的数据

临床纬度的信息，第一要素是疾病病种。而关于疾病命名及分类的系统有WHO的ICD系、OMIM、NLM的MeSH、SNOMED CT、MedGene等多个不同的系统。这些不同的系统对疾病的命名与分级并不完全一致，在整合采用不同系统的数据库时就必须做数据匹配。

▍规范各变异层次的元数据

组学方面，其层次纬度也很多，有基因组学、转录组学、蛋白质组学、代谢组学、表观遗传组学等。仅仅在基因组学上就有单核苷酸变异、插入、缺失、替换、重复、拷贝数变化、转座、染色体微变化、核型等多种不同层次变异。不同层次的变异的数据特征差异很大，需要制定好各变异层次的元数据规范，进行有效的数据整合对接。

▍统一标准化组学数据

这些年来，分子生物和遗传学界为统一标准化组学数据做出了很多努力。比如HGNC对人类基因，包括蛋白编码基因、非编码RNA、假基因等都做了统一的命名；HGVS对基因组、转录组和蛋白质组学水平变异的表述格式做了统一的规定。令人遗憾的是，目前这些标准并没有被广泛应用。

举个小例子说明，对位于同聚序列内的插入或缺失，HGVS规定在变异结果相同的情况下，变异位置应注释在转录本的3’端；如果基因位于正链，变异位置发生在参考序列（正链）最右端。相反如果基因位于负链，变异位置则发生在参考序列（正链）最左端。但目前市场上的变异识别软件并不区分正负链，而是将变异位置统一注释在参考序列（正链）的最左端；即便像COSMIC、ClinVar这样被大家广泛应用的公众数据库在这方面也没有做到统一。COSMIC录入的变异大多不区分正负链，统一注释在最左端；ClinVar则大多注释在最右端。如果不对这些不同的格式进行统一转化，可想而知会影响下游注释的准确性和全面性。

▍精准医学知识库的核心是对组学变异与临床信息关联关系的注释。

以为朔的iCMDB为例，我们把这些注释分为六个类别，包括易感、诊断、治疗、预后、和药物基因组学的药物代谢和药效动力类别。每一个注释要有详实的循证文献证据。

以易感类注释为例，可能不少人都知道著名的易感基因BRCA1，BRCA2，它们是癌症相关基因，其正常表达能抑制恶性肿瘤发生。iCMDB中收录了这两个基因中三千多个被ACMG划分为有害、可能有害、不确定等等级的位点，以及剩下的七千多个被归类为可能良性、良性等级的位点。

每个位点不仅给出对蛋白功能影响的分子机制注释，还会给出详尽的临床注释，包括研究设计信息、研究人种信息、样本量大小、Odd Ration等详尽信息。治疗类注释的临床注释也是同样，不仅有研究设计的循证等级、样本量、研究人种信息，还包括了总生存期、无进展生存期等准确的治疗效果数字信息。

药物基因组学注释则从药物代谢速度、不良副作用、药效等三个层次进行注释。

精准医疗数据分析平台搭建－从群体研究到个体应用

有了基于群体研究证据的精准医学知识库，才有了搭建精准医学数据分析注释平台、进行个体化临床应用的基础。一个完善的精准医学数据分析注释平台需要具备四个要素：

● 需要有对接医院HIS、EMRS系统的病人基本信息、病理信息、随访数据等信息的录入和安全管理平台；

● 数据分析注释平台必须能够兼容多种检测技术和数据格式。也就是说，不仅要兼容不同的二代高通量测序数据，也要兼容Sanger测序、qPCR、FISH、IHC等传统的“金标准”检测技术。

● 整合的分析流程必须做到量体裁衣，因病而异。不同疾病、不同注释目的所需分析流程也会不同。如恶性肿瘤的风险预测是识别生殖系变异，肿瘤的靶向治疗则检测体细胞突变；但如果是肿瘤的化疗药物药物基因组学注释，则又是检测生殖系变异。同样是检测肿瘤体细胞突变，从肿瘤新鲜组织、甲醛固定石蜡包埋块、血液ctDNA等不同来源提取的DNA特征也不同。因此，根据不同的病种、不同检测目的、不同检测手段，要自动化选择适用的分析注释流程、自动化出具报告。

● 需采用针对肿瘤组织特征、不同变异类型特征的算法软件进行分析。以癌症的测序数据分析为例，癌症类型多样，与其相关的突变多为体细胞突变，其样本DNA质量低，常含有大量健康组织污染，肿瘤具有异质性，突变类型多样等特征。因此分析流程在质量控制、比对、变异识别等步骤所采用的算法软件都必须是有针对性的。比如，近期我们做美国西奈山医院的一批非小细胞肺癌Ion Torrent测序数据分析时，检测出了一些特殊的较高频率的复合型插入缺失，并得到了验证，这些变异用常规的分析流程是测不出来的。

随着数据的积累，特别是二代测序大数据的积累，分析注释平台也必须具备大数据搜索、储存、和分库管理能力，才能实现高效的临床应用。

从个体到群体数据深度挖掘－推动精准医学发展

随着个体化应用平台上大量个体样本的累积，我们可以对这些数据进一步统计分析、挖掘发现新知识、丰富扩展精准医学知识库。这就是我们目前推崇的一个理念，即“从群体研究到个体应用，再从个体到群体数据深度挖掘”。由此形成一个良性循环，推动精准医学进一步发展。

比如，iCMDB的个体化数据分析注释平台已累计了大量的非小细胞肺癌的数据。近期，我们对这些数据进行了进一步挖掘，在平衡了各种关联因素后，发现了一些新的有意义的变异，归纳了中国人的非小细胞肺癌变异图谱，为进一步提高个体化临床应用的精度提供了新的可能。

总体来说，对非小细胞肺癌其分子机制的研究已比较深入，也已经有多种靶向疗法被开发出来。iCMDB里就收录了非小细胞肺癌381条循证临床注释，64个治疗方案。但还有很多疾病，由于缺乏特异、灵敏的生物标志物，导致早期预测、诊断手段匮乏。同时，其现有的治疗措施疗效有限、病程长死亡率高。针对这类情况，为朔已跟广州呼吸疾病研究所达成合作，通过我们的分析平台，对慢阻肺的样本进行分析和深度数据挖掘，寻找与COPD精准预测、早期诊断、分类分型及预后判断相关的组学特征谱，建立自动化分析注释软件系统，实现更为精确和精细的疾病分类、分型，提高其诊断、治疗精度。

总结

所谓“医者父母心”。针对每个患者情况，提供个体化最佳的诊疗服务是每个医生的心愿。然而在信息爆炸的年代，临床医生的知识更新速度远比不上知识产生的速度。构建精准医学知识库和数据分析注释平台能为医生提供临床决策支持，让我国国民尽快享受到智能化的精准医疗服务，是为朔和所有业界人士的目标，在此与诸君共勉！

问答环节

Q：精准医学知识库的信息是机器获取并综合入库的吗？当多信息来源的精准医学知识库出现信息矛盾或冲突时，该如何解决？

精准医学知识库的信息录入有两种方式。一种是通过人工智能对数据库自动抓取。在文献选择时，我们也开发了一些文本挖掘的工具，使文献搜索变得更快更精准。但是文献内容的提取由人工完成，而且文献的选取我们有严格的操作流程，需要考虑的因素包括循证医学等级、样本量大小、发表时间、发表文献的等级等。当不同的文献表现的证据存在矛盾的时候，我们会把这些有矛盾的证据都呈列出来。然后尽量做一个Meta分析，把这种不同的信息整合成一个更高等级的证据。整体原则上，我们是要尽量客观地呈现这些证据，而不是下我们自己的主观判断。

Q：请问不同人种的数据统计结果如何做临床应用？

我们在构建知识库的时候，录入的信息包括每个不同的文献的研究人种，那么比如像BRCA基因，针对一个位点可能有很多篇针对不同人种的研究，我们会把这些信息都录进去。同时组学的数据库，像千人基因组计划，都有针对不同人种的统计数字，在分析注释时我们会针对具体患者个体人种，采用相应人种的统计数字和注释。

Q：请问现在和医院合作是在进行临床实验吗？还是可以直接应用？

是直接应用的。我们公司提供的服务大概分为三个等级。第一个等级是通过一体机，直接把我们的知识库和整个分析平台分析流程部署，投放在医院的科室里面。然后，医院内部的测序样本直接在一体机上测序，并分析作出报告。最终为临床医生的临床决策提供支持和参考。医院一般是用Panel测序，数据量相对比较小，一体机上完全可以满足在临床应用上的需求。第二个等级：类似外显子组、全基因组这种大数据，可以提交到我们的服务器上，然后通过云平台出具分析注释报告。第三个等级：如果有大量的全基因组测序用于科学研究，如几百上千个样本，则会通过我们的服务器提交到天河2号上，快速地进行数据分析。

Q：请问从个体到群体数据深度挖掘的算法开发当前存在哪些瓶颈？

我们公司的研发方向以应用为主，不是以新算法开发为主。我觉得在应用上选取哪个算法并不是最重要。而是在应用引用这个算法之前，在这个数据的各种相关变量因素的选择上，要比算法重要的多。因为变量因素要是没有选择好，你不管用什么算法可能都得不到统计上显著性的结论。如果你研究设计做得好，真正有关联的因素都被很好地设计进去，数据预处理得好，那么有时就算用简单的算法也可以得到有效的结果。

Q：请问GWAS分析对于个人健康管理和疾病管理的意义何在？GWAS之后的下一代主流研究落地应该是什么？

GWAS的研究意义在于寻找新的、和疾病关联的生物标记物。对于个体的健康管理和疾病研究来说，它会帮助寻找出个人疾病风险的相关因素。比如通过GWAS分析出吸烟与肺癌等很多种疾病的高相关性，吸烟患者得肺癌的危险性是不吸烟者的25倍以上。当测序检测出患者有较高肺癌风险时，就建议他戒掉这种不良习惯。这对个人健康管理是一个正面有益的推动。GWAS分析出的是关联性，但不能验证这个基因是一个驱动型的因素。因此，需要进一步的实验研究来验证。

友情提示：嘉宾观点不代表“火石创造”立场