【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ):如何從VCF格式文件中獲取基因測(cè)序數(shù)據(jù)?
遺傳病、罕見(jiàn)病基因檢測(cè)導(dǎo)讀:
VCF格式是一種基因測(cè)序領(lǐng)域常用的基因序列存儲(chǔ)格式。了解VCF格式是基因信息注釋工作與基因測(cè)序工作進(jìn)行對(duì)接的第一步。本文介結(jié)從采用VCF格式存儲(chǔ)的基因數(shù)據(jù)中獲取受檢者基因信息的一個(gè)工具,以及使用這一個(gè)工具的方法。
為什么要開(kāi)發(fā)vcfR工具包?vcfR有什么用途?
VCF文件格式成為記錄一個(gè)人基因信息的通用格式文件,正如JPG是照片和圖形的通用格式文件一樣。由于測(cè)序成本的大幅度降低,數(shù)據(jù)庫(kù)比對(duì)成為現(xiàn)行基因檢測(cè)的通行技術(shù),而基因解碼進(jìn)一步對(duì)數(shù)據(jù)庫(kù)比對(duì)方法進(jìn)行升級(jí)換對(duì),讀取和理解基因信息成為基因信息閱讀、傳遞和交流的一個(gè)重要需要。因此,我們需要掌握對(duì)VCF格式文件進(jìn)行處理的軟件。vcfR軟件不僅可提取基因型,還可以提取與基因型測(cè)定的質(zhì)量的數(shù)據(jù)。vcfR是一個(gè)在R語(yǔ)言下開(kāi)發(fā)的工具,因?yàn)镽提供了一個(gè)交互體驗(yàn)和一個(gè)通常用于基因信息分析的環(huán)境。通過(guò)vcfR可以讀取VCF文件,存儲(chǔ)到R語(yǔ)言支持的各種文件格式。并采用R語(yǔ)言進(jìn)行匯總、繪圖、統(tǒng)計(jì)。VcfR還提供了通過(guò)修改各種參數(shù),用可視化的方式再現(xiàn)這些參數(shù)對(duì)分析結(jié)果的影響的功能。另外vcfR還可以使用基因序列文件(FASTA)和基因注釋文件(GFF),使得基因組的特定區(qū)域如染色體可以以圖形的方式展現(xiàn)。vcfR還可以通過(guò)轉(zhuǎn)換函數(shù)將vcfR的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換成為R環(huán)境下其他基因信息分析工具可以使用的文件格式。更為復(fù)雜的運(yùn)算可以通過(guò)C++語(yǔ)言來(lái)實(shí)現(xiàn)。
VCF文件的存儲(chǔ)格式:
vcf文件分為三個(gè)部分
- ‘#’號(hào)開(kāi)頭行——meta
- 非#號(hào)開(kāi)頭行分為fix和gt兩個(gè)部分
fix部分存儲(chǔ)vcf文件中非#號(hào)開(kāi)頭行的前7列,分別是
- 染色體編號(hào)
- 堿基位置
- ID
- 參考?jí)A基
- 變異堿基
- 質(zhì)量值
- 是否過(guò)濾
gt 部分存儲(chǔ)兩部分內(nèi)容
- format
- 樣本基因型
vcfR的主要功能
2、解析功能可有效提取基因型矩陣或其相關(guān)信息。
3、繪圖功能提供了一種直觀地評(píng)估變體特征的快速方法。
4、提供了對(duì)R環(huán)境提供的大量統(tǒng)計(jì)和圖形工具的便捷訪問(wèn)。
5、通過(guò)有效的解析和可視化,可以快速開(kāi)發(fā)針對(duì)質(zhì)量指標(biāo)的硬過(guò)濾器,可以輕松地針對(duì)單個(gè)項(xiàng)目和實(shí)驗(yàn)設(shè)計(jì)進(jìn)行量身定制。
6、vcfR的關(guān)鍵組件以C ++實(shí)現(xiàn),并從R中調(diào)用以賊大程度地減少計(jì)算時(shí)間。
vcf主要功能介紹:
通過(guò)參數(shù)設(shè)置,通過(guò)讀取表格數(shù)據(jù)的函數(shù)utils :: read.table()和data.table :: fread()以跳過(guò)非表格元區(qū)域,從而為這些函數(shù)提供了一點(diǎn)優(yōu)勢(shì)。
通過(guò)data.table :: fread('zcat filename.gz')調(diào)用data.table :: fread()函數(shù),是因?yàn)樗?dāng)前不能讀取壓縮的數(shù)據(jù)。
2、讀取基因型函數(shù):
extract.gt()
chromoqc()可用于可視化chromR對(duì)象。
- 上一篇:【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ):VCF格式文件是怎么貯存基因信息的?
- 下一篇:【佳學(xué)基因檢測(cè)】HAIL,一個(gè)基于數(shù)據(jù)庫(kù)的生物信息分析途徑算得上是基因解碼嗎?
- 【佳學(xué)基因檢測(cè)】什么是MLPA基因檢測(cè)?有什么優(yōu)點(diǎn)?...
- 【佳學(xué)基因檢測(cè)】如何將全基因組測(cè)序(WGS)基因檢測(cè)數(shù)據(jù)定位到人的標(biāo)準(zhǔn)基因組上?...
- 【佳學(xué)基因檢測(cè)】FISH基因檢測(cè)中的探針類(lèi)型選擇...
- 【佳學(xué)基因檢測(cè)】腫瘤基因檢測(cè)生物信息分析注意事項(xiàng)...
- 【佳學(xué)基因檢測(cè)】癌癥基因組檢測(cè)要點(diǎn):一定要知道!...
- 【佳學(xué)基因檢測(cè)】什么是基因組檢測(cè)?...
- 【佳學(xué)基因檢測(cè)】TP53突變基因檢測(cè)...
- 【佳學(xué)基因檢測(cè)】基因解碼對(duì)Y染色體的進(jìn)一步解密...
- 【佳學(xué)基因檢測(cè)】腫瘤基因檢測(cè)需要包括重復(fù)或反復(fù)區(qū)域的分析嗎?...
- 【佳學(xué)基因檢測(cè)】如何采用液體活檢檢進(jìn)行細(xì)胞學(xué)檢測(cè)與NGS測(cè)序...
- 【佳學(xué)基因檢測(cè)】臨床科研服務(wù):GWAS課題中的統(tǒng)計(jì)分析...
- 【佳學(xué)基因檢測(cè)】腫瘤靶向藥物Regorafenib (Stivarga) 及其在結(jié)直腸癌治療中的作用...
- 【佳學(xué)基因檢測(cè)】ALDOA的群體遺傳學(xué)結(jié)果對(duì)基因檢測(cè)正確性的影響...
- 【佳學(xué)基因檢測(cè)】SLC25A4的雙生子遺傳學(xué)分析結(jié)果簡(jiǎn)介...
- 【佳學(xué)基因檢測(cè)】ASIC1的分子遺傳學(xué)分析成果...
- 【佳學(xué)基因檢測(cè)】ANXA6分子病理學(xué)成果概要...
- 【佳學(xué)基因檢測(cè)】檢驗(yàn)科醫(yī)師晉升考試關(guān)于ADRA2C的知識(shí)...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)院碩士研究考試關(guān)于ACVR2A基因檢測(cè)的知識(shí)要點(diǎn)...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)博士ANK1基因檢測(cè)的知識(shí)結(jié)構(gòu)準(zhǔn)備...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)院專(zhuān)升本關(guān)于ADCYAP1R1基因檢測(cè)的基本技能...
- 【佳學(xué)基因檢測(cè)】病例分析會(huì)中需要知道的關(guān)于ACLY基因的知識(shí)...
- 【佳學(xué)基因檢測(cè)】病案討論中需要知道的關(guān)于AIF1的知識(shí)...
- 【佳學(xué)基因檢測(cè)】質(zhì)譜基因檢測(cè)AGTR2基因存在基因突變?cè)撛趺蠢斫猓?/strong>...
- 【佳學(xué)基因檢測(cè)】飛行質(zhì)譜基因檢測(cè)發(fā)現(xiàn)ADRA2A有突變,嚴(yán)重嗎?...
- 【佳學(xué)基因檢測(cè)】核型分析發(fā)現(xiàn)NAT1突變了,是什么意思?...
- 【佳學(xué)基因檢測(cè)】遺傳學(xué)檢測(cè)結(jié)果指出ALOX15突變,該找誰(shuí)咨詢?...
- 【佳學(xué)基因檢測(cè)】高精度基因檢測(cè)為什么包含ADD1基因?...
- 【佳學(xué)基因檢測(cè)】基因檢測(cè)包中為什么一定要有ACTA2基因?...
- 【佳學(xué)基因檢測(cè)】基因檢測(cè)時(shí)查看是否包含ADH1C重要嗎?...
- 【佳學(xué)基因檢測(cè)】NR0B1基因間序列存在突變是否需要阻斷遺傳?...
- 來(lái)了,就說(shuō)兩句!
-
- 賊新評(píng)論 進(jìn)入詳細(xì)評(píng)論頁(yè)>>