近日,中國科學院北京基因組研究所生命與健康大數據中心開發了國際**、國內頭個規模*大的基因組序列變異庫——GVM(Genome Variation Map)。該庫基于人工審編整合了多個物種的大量基因組序列單核苷酸多態位點和小的插入與刪除變異信息,是基因組序列變異信息匯交、管理與檢索的資源庫。研究成果以Genome Variation Map: a data repository of genome variations in BIG Data Center為題,在線發表在Nucleic Acids Research上。
基因組序列變異是基因組DNA水平發生的可遺傳變異,是生物多樣性的基礎,是物種進化、分子育種、優良性狀選育、人類**等研究*為寶貴的遺傳資源。近年來,隨著測序技術發展,越來越多物種的基因組被精細解析;物種內遺傳多態變異位點也通過大規模的群體測序獲得,并廣泛應用于復雜性狀的關聯解析。國際兩大數據中心NCBI和EBI旗下的dbSNP和EVA是主要的基因組序列變異資源庫。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar兩大數據庫停止接收非人物種的SNP提交信息,自2017年11月1日起停止非人物種的SNP在線查詢與提交。這對基于序列變異研究的科研人員造成了不便。
為此,GVM作為生命與健康大數據中心的核心數據資源庫之一,搜集了以二代測序和芯片技術為主要檢測手段的全基因組序列變異檢測的原始數據,通過標準化的變異位點鑒定與注釋,獲得包括人、畜牧動物、主要農作物和其他資源物種在內的19個物種共約50億的變異信息,8,884個個體的基因型數據,并通過人工審編收錄了13,262條高質量非人物種的基因型與表型知識數據,整合了180,911條人變異位點的知識信息。其中,大熊貓、虎鯨、毛竹、橡膠、小麥是GVM數據庫所特有的物種。
GVM開發了友好的數據提交、瀏覽、搜索和可視化功能。用戶可通過基因組位置、變異影響、基因名稱和基因功能等檢索變異位點信息,并下載數據;可通過ftp服務下載VCF和FASTA文件格式的全基因變異信息;可在線或離線方式向系統提交數據,這方便了科研人員的數據共享。
研究工作得到了中科院戰略性先導科技專項、中科院國際大科學計劃、國家科技攻關計劃、國家高技術研究發展計劃(863計劃)、國家自然基金項目、中科院百人計劃、中科院青年**促進會等的資助。
論文標題:Genome Variation Map: a data repository of genome variations in BIG Data Center