從個體到群體的數據循環，看為朔如何構建精準醫療知識庫

火石創造 2016-07-26 14:34 搶發第一評

摘要

7月21日晚，火石創造邀請了為朔醫學數據（北京）科技有限公司副總裁全雪萍博士，為大家分享“精準醫療數據分析——推動精準醫學發展”。全博士為我們介紹了構建精準醫療知識庫的必要性和難點，詳細分析了精準醫療數據分析平臺將如何搭建，以及后續如何應用到群體之中，給精準醫療助一把力！

分享環節

構建精準醫療知識庫的必要性

這些年得益于測序技術，特別是二代高通量測序技術的發展，傳統醫學快速地發展到精準醫學，這使我們普通人群快速便宜地獲取自身基因組學信息成為可能。

然而，不管是一代Sanger測序、二代高通量測序，還是PCR、生物芯片、免疫組化等常規分子水平檢測，都只能告訴我們受檢對象組學上的一些變異信息，而不能直接告訴我們根據這些信息臨床上該如何決策。

組學變異與臨床表型、治療效果的關聯關系不是一個個體樣本可以確定的，而是需要大樣本的群體研究來證實，也就是說需要循證依據。所以，構建基于客觀循證依據的組學變異、臨床信息關聯知識庫成為實現精準醫療臨床應用的必然之路。

最近FDA、CSCO紛紛推出指南，明確指出需要通過循證的遺傳變異知識庫對測序分析結果進行臨床注釋解讀來出具報告。譬如FDA指出，在評估基于NGS的檢測時，所應用的知識庫必須整合多層次科學證據，并有相應的權重；數據的選擇和錄入必須有詳細明確的標準操作程序并嚴格按其操作。

早在2011年，為朔的創立者就前瞻性地看到了這一需求和必然趨勢，啟動構建基于循證文獻的精準醫學知識庫iCMDB。

精準醫學知識庫的信息來源可分為三類：第一類是公共的組學數據庫，如NCBI、Ensembl、dbSNP、OMIM、PharmGKB、ClinVar、COSMIC等，我們可以從中提取變異的組學屬性；第二類是FDA、CFDA、EMA、Drugbank、Clinical Trial、NCCN指南、ASCO、ESMO等診療數據庫，可從中提取臨床診療方案；第三類則是從公眾文獻庫如Pubmed中獲取的海量文獻。這些文本文獻中的研究提供了關聯臨床表型、組學變異與診療效果這三方面的關系證據。iCMDB在從這些文獻中結構化提取信息時，會針對每一項研究提供的證據，提取其研究設計方案、研究對象、樣本量大小等數據，給出詳細的循證等級和權重，并經多重人工審核，盡可能提供準確客觀的依據。因此iCMDB已在新加坡獲得三類醫療器械資質，CFDA、FDA也已在同步報批中。（附，最新消息，iCMDB已作為美國西奈山醫院得精準醫學整體流程的一部分通過了FDA CAP認證）

構建知識庫的難點

構建知識庫的最大難點在于如何整合不同來源、不同層次、不同結構的多維數據和信息。

▍匹配不同的系統來源的數據

臨床緯度的信息，第一要素是疾病病種。而關于疾病命名及分類的系統有WHO的ICD系、OMIM、NLM的MeSH、SNOMED CT、MedGene等多個不同的系統。這些不同的系統對疾病的命名與分級并不完全一致，在整合采用不同系統的數據庫時就必須做數據匹配。

▍規范各變異層次的元數據

組學方面，其層次緯度也很多，有基因組學、轉錄組學、蛋白質組學、代謝組學、表觀遺傳組學等。僅僅在基因組學上就有單核苷酸變異、插入、缺失、替換、重復、拷貝數變化、轉座、染色體微變化、核型等多種不同層次變異。不同層次的變異的數據特征差異很大，需要制定好各變異層次的元數據規范，進行有效的數據整合對接。

▍統一標準化組學數據

這些年來，分子生物和遺傳學界為統一標準化組學數據做出了很多努力。比如HGNC對人類基因，包括蛋白編碼基因、非編碼RNA、假基因等都做了統一的命名；HGVS對基因組、轉錄組和蛋白質組學水平變異的表述格式做了統一的規定。令人遺憾的是，目前這些標準并沒有被廣泛應用。

舉個小例子說明，對位于同聚序列內的插入或缺失，HGVS規定在變異結果相同的情況下，變異位置應注釋在轉錄本的3’端；如果基因位于正鏈，變異位置發生在參考序列（正鏈）最右端。相反如果基因位于負鏈，變異位置則發生在參考序列（正鏈）最左端。但目前市場上的變異識別軟件并不區分正負鏈，而是將變異位置統一注釋在參考序列（正鏈）的最左端；即便像COSMIC、ClinVar這樣被大家廣泛應用的公眾數據庫在這方面也沒有做到統一。COSMIC錄入的變異大多不區分正負鏈，統一注釋在最左端；ClinVar則大多注釋在最右端。如果不對這些不同的格式進行統一轉化，可想而知會影響下游注釋的準確性和全面性。

▍精準醫學知識庫的核心是對組學變異與臨床信息關聯關系的注釋。

以為朔的iCMDB為例，我們把這些注釋分為六個類別，包括易感、診斷、治療、預后、和藥物基因組學的藥物代謝和藥效動力類別。每一個注釋要有詳實的循證文獻證據。

以易感類注釋為例，可能不少人都知道著名的易感基因BRCA1，BRCA2，它們是癌癥相關基因，其正常表達能抑制惡性腫瘤發生。iCMDB中收錄了這兩個基因中三千多個被ACMG劃分為有害、可能有害、不確定等等級的位點，以及剩下的七千多個被歸類為可能良性、良性等級的位點。

每個位點不僅給出對蛋白功能影響的分子機制注釋，還會給出詳盡的臨床注釋，包括研究設計信息、研究人種信息、樣本量大小、Odd Ration等詳盡信息。治療類注釋的臨床注釋也是同樣，不僅有研究設計的循證等級、樣本量、研究人種信息，還包括了總生存期、無進展生存期等準確的治療效果數字信息。

藥物基因組學注釋則從藥物代謝速度、不良副作用、藥效等三個層次進行注釋。

精準醫療數據分析平臺搭建－從群體研究到個體應用

有了基于群體研究證據的精準醫學知識庫，才有了搭建精準醫學數據分析注釋平臺、進行個體化臨床應用的基礎。一個完善的精準醫學數據分析注釋平臺需要具備四個要素：

●?需要有對接醫院HIS、EMRS系統的病人基本信息、病理信息、隨訪數據等信息的錄入和安全管理平臺；

●?數據分析注釋平臺必須能夠兼容多種檢測技術和數據格式。也就是說，不僅要兼容不同的二代高通量測序數據，也要兼容Sanger測序、qPCR、FISH、IHC等傳統的“金標準”檢測技術。

●?整合的分析流程必須做到量體裁衣，因病而異。不同疾病、不同注釋目的所需分析流程也會不同。如惡性腫瘤的風險預測是識別生殖系變異，腫瘤的靶向治療則檢測體細胞突變；但如果是腫瘤的化療藥物藥物基因組學注釋，則又是檢測生殖系變異。同樣是檢測腫瘤體細胞突變，從腫瘤新鮮組織、甲醛固定石蠟包埋塊、血液ctDNA等不同來源提取的DNA特征也不同。因此，根據不同的病種、不同檢測目的、不同檢測手段，要自動化選擇適用的分析注釋流程、自動化出具報告。

●?需采用針對腫瘤組織特征、不同變異類型特征的算法軟件進行分析。以癌癥的測序數據分析為例，癌癥類型多樣，與其相關的突變多為體細胞突變，其樣本DNA質量低，常含有大量健康組織污染，腫瘤具有異質性，突變類型多樣等特征。因此分析流程在質量控制、比對、變異識別等步驟所采用的算法軟件都必須是有針對性的。比如，近期我們做美國西奈山醫院的一批非小細胞肺癌Ion Torrent測序數據分析時，檢測出了一些特殊的較高頻率的復合型插入缺失，并得到了驗證，這些變異用常規的分析流程是測不出來的。

隨著數據的積累，特別是二代測序大數據的積累，分析注釋平臺也必須具備大數據搜索、儲存、和分庫管理能力，才能實現高效的臨床應用。

從個體到群體數據深度挖掘－推動精準醫學發展

隨著個體化應用平臺上大量個體樣本的累積，我們可以對這些數據進一步統計分析、挖掘發現新知識、豐富擴展精準醫學知識庫。這就是我們目前推崇的一個理念，即“從群體研究到個體應用，再從個體到群體數據深度挖掘”。由此形成一個良性循環，推動精準醫學進一步發展。

比如，iCMDB的個體化數據分析注釋平臺已累計了大量的非小細胞肺癌的數據。近期，我們對這些數據進行了進一步挖掘，在平衡了各種關聯因素后，發現了一些新的有意義的變異，歸納了中國人的非小細胞肺癌變異圖譜，為進一步提高個體化臨床應用的精度提供了新的可能。

總體來說，對非小細胞肺癌其分子機制的研究已比較深入，也已經有多種靶向療法被開發出來。iCMDB里就收錄了非小細胞肺癌381條循證臨床注釋，64個治療方案。但還有很多疾病，由于缺乏特異、靈敏的生物標志物，導致早期預測、診斷手段匱乏。同時，其現有的治療措施療效有限、病程長死亡率高。針對這類情況，為朔已跟廣州呼吸疾病研究所達成合作，通過我們的分析平臺，對慢阻肺的樣本進行分析和深度數據挖掘，尋找與COPD精準預測、早期診斷、分類分型及預后判斷相關的組學特征譜，建立自動化分析注釋軟件系統，實現更為精確和精細的疾病分類、分型，提高其診斷、治療精度。

總結

所謂“醫者父母心”。針對每個患者情況，提供個體化最佳的診療服務是每個醫生的心愿。然而在信息爆炸的年代，臨床醫生的知識更新速度遠比不上知識產生的速度。構建精準醫學知識庫和數據分析注釋平臺能為醫生提供臨床決策支持，讓我國國民盡快享受到智能化的精準醫療服務，是為朔和所有業界人士的目標，在此與諸君共勉！

問答環節

Q：精準醫學知識庫的信息是機器獲取并綜合入庫的嗎？當多信息來源的精準醫學知識庫出現信息矛盾或沖突時，該如何解決？

精準醫學知識庫的信息錄入有兩種方式。一種是通過人工智能對數據庫自動抓取。在文獻選擇時，我們也開發了一些文本挖掘的工具，使文獻搜索變得更快更精準。但是文獻內容的提取由人工完成，而且文獻的選取我們有嚴格的操作流程，需要考慮的因素包括循證醫學等級、樣本量大小、發表時間、發表文獻的等級等。當不同的文獻表現的證據存在矛盾的時候，我們會把這些有矛盾的證據都呈列出來。然后盡量做一個Meta分析，把這種不同的信息整合成一個更高等級的證據。整體原則上，我們是要盡量客觀地呈現這些證據，而不是下我們自己的主觀判斷。

Q：請問不同人種的數據統計結果如何做臨床應用？

我們在構建知識庫的時候，錄入的信息包括每個不同的文獻的研究人種，那么比如像BRCA基因，針對一個位點可能有很多篇針對不同人種的研究，我們會把這些信息都錄進去。同時組學的數據庫，像千人基因組計劃，都有針對不同人種的統計數字，在分析注釋時我們會針對具體患者個體人種，采用相應人種的統計數字和注釋。

Q：請問現在和醫院合作是在進行臨床實驗嗎？還是可以直接應用？

是直接應用的。我們公司提供的服務大概分為三個等級。第一個等級是通過一體機，直接把我們的知識庫和整個分析平臺分析流程部署，投放在醫院的科室里面。然后，醫院內部的測序樣本直接在一體機上測序，并分析作出報告。最終為臨床醫生的臨床決策提供支持和參考。醫院一般是用Panel測序，數據量相對比較小，一體機上完全可以滿足在臨床應用上的需求。第二個等級：類似外顯子組、全基因組這種大數據，可以提交到我們的服務器上，然后通過云平臺出具分析注釋報告。第三個等級：如果有大量的全基因組測序用于科學研究，如幾百上千個樣本，則會通過我們的服務器提交到天河2號上，快速地進行數據分析。

Q：請問從個體到群體數據深度挖掘的算法開發當前存在哪些瓶頸？

我們公司的研發方向以應用為主，不是以新算法開發為主。我覺得在應用上選取哪個算法并不是最重要。而是在應用引用這個算法之前，在這個數據的各種相關變量因素的選擇上，要比算法重要的多。因為變量因素要是沒有選擇好，你不管用什么算法可能都得不到統計上顯著性的結論。如果你研究設計做得好，真正有關聯的因素都被很好地設計進去，數據預處理得好，那么有時就算用簡單的算法也可以得到有效的結果。

Q：請問GWAS分析對于個人健康管理和疾病管理的意義何在？GWAS之后的下一代主流研究落地應該是什么？

GWAS的研究意義在于尋找新的、和疾病關聯的生物標記物。對于個體的健康管理和疾病研究來說，它會幫助尋找出個人疾病風險的相關因素。比如通過GWAS分析出吸煙與肺癌等很多種疾病的高相關性，吸煙患者得肺癌的危險性是不吸煙者的25倍以上。當測序檢測出患者有較高肺癌風險時，就建議他戒掉這種不良習慣。這對個人健康管理是一個正面有益的推動。GWAS分析出的是關聯性，但不能驗證這個基因是一個驅動型的因素。因此，需要進一步的實驗研究來驗證。

友情提示：嘉賓觀點不代表“火石創造”立場