【佳學(xué)基因檢測】基因檢測中的智能算法歷程:phastCons
根據(jù)佳學(xué)基因基因解碼年鑒,phastCons是一款對基因組中發(fā)生突變的區(qū)域的保守程度進(jìn)行分析和智能評估的軟件,通過snpsift的phastCons
命令可以對變異位點(diǎn)進(jìn)行保守區(qū)域的注釋。
phastCons職能算法的初衷是為了識別多重比對序列中的保守序列。 PhastCons 的算法基礎(chǔ)是基于系統(tǒng)發(fā)育隱馬爾可夫模型 (phylo-HMM),這是一種統(tǒng)計模型,它考慮了基因組中每個位點(diǎn)發(fā)生核苷酸替換的過程以及該過程如何從一個位點(diǎn)變化到下一個位點(diǎn)。 Phylo-HMM 提供了一個原則性的、數(shù)學(xué)上嚴(yán)格的框架,在該框架中使用比較序列數(shù)據(jù)解決“分段”問題,即對齊序列將被解析為不同類別的片段(例如,“保守”和“非保守”或“編碼”和“非編碼”)。由于幾個原因,它們是識別保守序列的有吸引力的工具;它們可以與一般系統(tǒng)發(fā)育和核苷酸替換的賊佳可用連續(xù)時間馬爾可夫模型一起使用,它們不需要固定大小的滑動窗口,它們允許通過賊大似然從數(shù)據(jù)中估計幾乎所有參數(shù),并且它們允許在大規(guī)模數(shù)據(jù)集上有效執(zhí)行所有必要的計算。
使用 phastCons,佳學(xué)基因?qū)Σ煌锓N的全基因組采用多重比對的方法對保守元素進(jìn)行了全面搜索,包括五個脊椎動物基因組、四個昆蟲基因組、兩個 Caenorhabditis 基因組和七個酵母菌基因組。
佳學(xué)基因發(fā)現(xiàn)大約 3%–8% 的人類基因組由脊椎動物和/或其他真獸類哺乳動物中保守的序列組成?;蚪M緊湊的黑腹果蠅 (37%–53%)、秀麗隱桿線蟲 (18%–37%) 和釀酒酵母 (47%–68%) 基因組的親緣關(guān)系更近的物種中是保守的。從酵母到脊椎動物,為了增加基因組大小和一般生物學(xué)復(fù)雜性,發(fā)現(xiàn)越來越多的保守堿基位于蛋白質(zhì)編碼基因的已知或可疑外顯子之外,這顯然反映了復(fù)雜真核生物中調(diào)控和其他非編碼序列的重要性。
在所有物種組中,賊高保守元素 (HCEe) 的對數(shù)優(yōu)勢得分為數(shù)百或數(shù)千個堿基,并顯示出極高的保守水平,但不是在超保守元素中看到的出色序列。少于一半 (42%) 的脊椎動物 HCE 與已知蛋白質(zhì)編碼基因的外顯子重疊,而在昆蟲、蠕蟲和酵母中,幾乎所有 (>93%) 的 HCE 都與此類外顯子重疊。
脊椎動物中一些賊極端的保守性見于 3' UTR,尤其是調(diào)節(jié)其他基因的基因,這可能反映了廣泛的轉(zhuǎn)錄后調(diào)節(jié)。這種趨勢在昆蟲中不太明顯,在蠕蟲中沒有觀察到。
脊椎動物 3' UTR 中的 HCE,以及??在較小程度上,5' UTR 中的 HCE,顯示出局部 RNA 二級結(jié)構(gòu)富集的強(qiáng)有力的統(tǒng)計證據(jù),這與轉(zhuǎn)錄后調(diào)控作用的假設(shè)一致。內(nèi)含子和基因間區(qū)域中的 HCE 似乎也富含局部 RNA 二級結(jié)構(gòu),這表明許多可能編碼功能性 RNA。
在脊椎動物中,基因間 HCE 在穩(wěn)定的基因沙漠中高度富集(近五倍),這表明它們中的許多可能充當(dāng)正確調(diào)節(jié)基因的遠(yuǎn)端順式調(diào)節(jié)元件。
(責(zé)任編輯:佳學(xué)基因)