【佳學基因檢測】HAIL,一個基于數(shù)據(jù)庫的生物信息分析途徑算得上是基因解碼嗎?
HAIL的特點:
簡化分析
HAIL是一個開源的Python庫,簡化了基因組數(shù)據(jù)分析。它提供了強大、易于使用的數(shù)據(jù)科學工具,可用于甚至用于詢問生物庫規(guī)模的基因組數(shù)據(jù)(例如英國生物庫、gnomAD、TopMed、FinnGen 和日本生物庫)。
基因組數(shù)據(jù)框架
現(xiàn)代數(shù)據(jù)科學是由數(shù)字矩陣(參見Numpy)和表(參見R和熊貓)驅(qū)動的。 雖然這些工具足以完成許多任務,但這些工具都沒有充分捕獲遺傳數(shù)據(jù)的結(jié)構(gòu)。遺傳數(shù)據(jù)結(jié)合了多個軸(變體和樣本),如矩陣和結(jié)構(gòu)化條目(基因型),如表或數(shù)據(jù)框。為了支持基因組分析,Hail 引入了一種強大的分布式數(shù)據(jù)結(jié)構(gòu),結(jié)合了矩陣和數(shù)據(jù)幀(稱為MatrixTable)的功能。
輸入統(tǒng)一
Hail MatrixTable統(tǒng)一了各種輸入格式(例如.vcf、bgen、plink、tsv、gtf、床文件),并支持可擴展查詢,即使在 PB 大小的數(shù)據(jù)集上。通過利用 MatrixTable,Hail 為科學提供了一個集成的、可擴展的分析平臺。
注釋數(shù)據(jù)庫
警告
HAIL中的所有功能都是在不斷創(chuàng)新中完善和改變。
此數(shù)據(jù)庫包含一個精心策劃的變體注釋集合,其格式可訪問且便于海爾使用,用于 Hail 分析管道。
若要將這些注釋合并到您自己的 Hail 分析管道中,請選擇要從下表中查詢的批注,然后復制并將 Hail 生成的代碼粘貼到您自己的分析腳本中。
查看數(shù)據(jù)庫類文檔,了解有關(guān)創(chuàng)建注釋數(shù)據(jù)庫實例和注釋MatrixTable或表的更多詳細信息。
谷歌云存儲
請注意,這些注釋存儲在 Google云存儲上的"請求者付費"存儲桶中。存儲桶現(xiàn)在在美國和歐盟區(qū)域都可用,因此,如果您的群集不在創(chuàng)建注釋數(shù)據(jù)庫實例時指定的區(qū)域之外,則可能會收取出口費用。
若要訪問以 開始的群集上的這些存儲桶,可以使用附加參數(shù),如下所示:hailctl dataproc
--requester-pays-annotation-db
hailctl dataproc start my-cluster --requester-pays-allow-annotation-db
亞馬遜 S3
注釋數(shù)據(jù)集現(xiàn)在也通過AWS 上的開放數(shù)據(jù)進行共享,并且可以在 AWS 上運行 Hail 的用戶訪問。請注意,在 AWS 上,注釋數(shù)據(jù)集目前僅在美國區(qū)域的存儲桶中可用。
數(shù)據(jù)庫查詢
通過單擊表中的復選框選擇注釋,將在下面的面板中生成相應的 Hail 命令。
此外,如果在我們的精心策劃的集合中查找特定的注釋,則提供搜索欄。
使用"復制到剪貼板"按鈕復制生成的 Hail 代碼,然后將命令粘貼到您自己的 Hail 腳本中。
名字 | 描述 | 版本 | 參考基因組 | |
---|---|---|---|---|
CADD | 組合注釋依賴消耗 (CADD):一種用于注釋編碼和非編碼變體的算法。鏈接 |
1.4 1.4 |
GRCh37 GRCh38 |
|
DANN | DANN:一種用于注釋基因變異的致病性的深度學習方法。鏈接 |
無 無 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_low_complexity_regions | Ensembl:脊椎動物基因組的基因組瀏覽器,支持比較基因組學、進化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_reference_genome | Ensembl:脊椎動物基因組的基因組瀏覽器,支持比較基因組學、進化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
clinvar_gene_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 | 2019-07 | 沒有 | |
clinvar_variant_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 |
2019-07 2019-07 |
GRCh37 GRCh38 |
|
dbNSFP_genes | dbNSFP:為人類基因組中所有nsSNV的功能預測和注釋而開發(fā)的數(shù)據(jù)庫。鏈接 | 4.0 | 沒有 | |
dbNSFP_variants | dbNSFP:為人類基因組中所有nsSNV的功能預測和注釋而開發(fā)的數(shù)據(jù)庫。鏈接 |
4.0 4.0 |
GRCh37 GRCh38 |
|
基因代碼 | GENCODE:旨在通過計算分析、人工注釋和實驗驗證的組合來識別人類基因組中的所有基因特征。鏈接 |
v19 v31 |
GRCh37 GRCh38 |
|
gerp_elements | GERP:通過量化替代赤字,在多個對齊方式中識別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gerp_scores | GERP:通過量化替代赤字,在多個對齊方式中識別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gnomad_exome_sites | gnomAD:一種資源,其目標是聚合和協(xié)調(diào)來自各種大規(guī)模測序項目的外顯組和基因組測序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 |
GRCh37 GRCh38 |
|
gnomad_genome_sites | gnomAD:一種資源,其目標是聚合和協(xié)調(diào)來自各種大規(guī)模測序項目的外顯組和基因組測序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 3.1 |
GRCh37 GRCh38 GRCh38 |
|
gnomad_lof_metrics | gnomAD:一種資源,其目標是聚合和協(xié)調(diào)來自各種大規(guī)模測序項目的外顯組和基因組測序數(shù)據(jù)。鏈接 | 2.1.1 | 沒有 | |
ldsc_baselineLD_annotations | LDSC 基線 LD 模型:包含 75 個注釋(在后期版本中包含的其他注釋),包括功能區(qū)域、組蛋白標記、GERP 分數(shù)、與 LD 相關(guān)的種群遺傳學力注釋、MAF bin 等。鏈接 | 2.2 | Grch37 |
- 上一篇:【佳學基因檢測】基因解碼基礎:如何從VCF格式文件中獲取基因測序數(shù)據(jù)?
- 下一篇:【佳學基因檢測】將基因解碼頂起的數(shù)據(jù)庫前輩:gnomAD數(shù)據(jù)庫介紹
- 【佳學基因檢測】什么是MLPA基因檢測?有什么優(yōu)點?...
- 【佳學基因檢測】如何將全基因組測序(WGS)基因檢測數(shù)據(jù)定位到人的標準基因組上?...
- 【佳學基因檢測】FISH基因檢測中的探針類型選擇...
- 【佳學基因檢測】腫瘤基因檢測生物信息分析注意事項...
- 【佳學基因檢測】癌癥基因組檢測要點:一定要知道!...
- 【佳學基因檢測】什么是基因組檢測?...
- 【佳學基因檢測】TP53突變基因檢測...
- 【佳學基因檢測】基因解碼對Y染色體的進一步解密...
- 【佳學基因檢測】腫瘤基因檢測需要包括重復或反復區(qū)域的分析嗎?...
- 【佳學基因檢測】如何采用液體活檢檢進行細胞學檢測與NGS測序...
- 【佳學基因檢測】臨床科研服務:GWAS課題中的統(tǒng)計分析...
- 【佳學基因檢測】腫瘤靶向藥物Regorafenib (Stivarga) 及其在結(jié)直腸癌治療中的作用...
- 【佳學基因檢測】ALDOA的群體遺傳學結(jié)果對基因檢測正確性的影響...
- 【佳學基因檢測】SLC25A4的雙生子遺傳學分析結(jié)果簡介...
- 【佳學基因檢測】ASIC1的分子遺傳學分析成果...
- 【佳學基因檢測】ANXA6分子病理學成果概要...
- 【佳學基因檢測】檢驗科醫(yī)師晉升考試關(guān)于ADRA2C的知識...
- 【佳學基因檢測】醫(yī)學院碩士研究考試關(guān)于ACVR2A基因檢測的知識要點...
- 【佳學基因檢測】醫(yī)學博士ANK1基因檢測的知識結(jié)構(gòu)準備...
- 【佳學基因檢測】醫(yī)學院專升本關(guān)于ADCYAP1R1基因檢測的基本技能...
- 【佳學基因檢測】病例分析會中需要知道的關(guān)于ACLY基因的知識...
- 【佳學基因檢測】病案討論中需要知道的關(guān)于AIF1的知識...
- 【佳學基因檢測】質(zhì)譜基因檢測AGTR2基因存在基因突變該怎么理解?...
- 【佳學基因檢測】飛行質(zhì)譜基因檢測發(fā)現(xiàn)ADRA2A有突變,嚴重嗎?...
- 【佳學基因檢測】核型分析發(fā)現(xiàn)NAT1突變了,是什么意思?...
- 【佳學基因檢測】遺傳學檢測結(jié)果指出ALOX15突變,該找誰咨詢?...
- 【佳學基因檢測】高精度基因檢測為什么包含ADD1基因?...
- 【佳學基因檢測】基因檢測包中為什么一定要有ACTA2基因?...
- 【佳學基因檢測】基因檢測時查看是否包含ADH1C重要嗎?...
- 【佳學基因檢測】NR0B1基因間序列存在突變是否需要阻斷遺傳?...
- 來了,就說兩句!
-
- 賊新評論 進入詳細評論頁>>