【佳學(xué)基因檢測(cè)】人類基因組檢測(cè)中罕見等位基因所導(dǎo)致的疾病嚴(yán)重程度分析與評(píng)估
基因檢測(cè)的目的是確定個(gè)人基因組內(nèi)的遺傳變異?;蜃儺愂莻€(gè)人疾病和表型的主要決定因素。基因組和外顯子組大規(guī)模測(cè)序項(xiàng)目的加快步伐極大地?cái)U(kuò)展了人類遺傳變異的范圍。評(píng)估這些變化的功能影響對(duì)于基于數(shù)據(jù)庫(kù)比對(duì)的基因檢測(cè)來(lái)說(shuō)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。對(duì)遺傳變異的綜合分析,尤其是在蛋白質(zhì)編碼基因外顯子中和附近發(fā)現(xiàn)的遺傳變異,可能會(huì)闡明基因與疾病的關(guān)系,并提供對(duì)疾病機(jī)制和表型變異的深入了解。來(lái)自普通人群的測(cè)序人類基因組和外顯子組數(shù)量的增加所抽出的基因解碼需求將增強(qiáng)此類分析的統(tǒng)計(jì)能力。
不同類型的遺傳變異發(fā)生在一系列尺度上,從染色體重排和拷貝數(shù)變異 (CNV) 等大型結(jié)構(gòu)變異,到多達(dá)數(shù)百個(gè)核苷酸位置的插入和缺失 (indels),再到單堿基對(duì) (單核苷酸)變異(SNV)。任何類型的遺傳變異都可能通過(guò)多種機(jī)制導(dǎo)致人類疾病,包括對(duì)染色質(zhì)組織、基因表達(dá)和調(diào)控、蛋白質(zhì)功能和遺傳不穩(wěn)定性的影響。在普通人群中觀察到的遺傳變異頻率與其適應(yīng)度成本以及人類及其祖先的進(jìn)化史有關(guān)。雖然常見變異,尤其是 SNV,首先被記錄在案,但在普通人群的大規(guī)模測(cè)序項(xiàng)目中也發(fā)現(xiàn)了個(gè)體水平上更罕見的遺傳變異(例如,次要等位基因頻率 (MAF) 小于 0.0001 的變異)作為患有某些疾病的患者,例如癌癥和智力障礙。盡管一些反復(fù)出現(xiàn)的變異已被確定為疾病的驅(qū)動(dòng)因素,但仍不斷發(fā)現(xiàn)大量罕見突變,其臨床意義難以評(píng)估。全基因組關(guān)聯(lián)研究可以查明遺傳位點(diǎn),主要由常見的 SNV 標(biāo)記,具有統(tǒng)計(jì)學(xué)上顯著的疾病或表型關(guān)聯(lián)。罕見和從頭突變與常見和罕見疾病的關(guān)聯(lián)可以通過(guò)如今由基因組或外顯子組測(cè)序促進(jìn)的家族或三重研究來(lái)揭示。結(jié)合通路分析,對(duì)患者遺傳變異的系統(tǒng)分析可以揭示疾病的生物學(xué)過(guò)程。然而,疾病基因優(yōu)先排序和致病變異發(fā)現(xiàn)仍然很困難。
單個(gè)堿基對(duì)位置的同一性變化是賊常見的遺傳變異類型。在蛋白質(zhì)編碼區(qū),非同義變異(錯(cuò)義突變)導(dǎo)致蛋白質(zhì)產(chǎn)物中單個(gè)氨基酸發(fā)生變化。這些被稱為單氨基酸變異 (SAV) 的錯(cuò)義突變的臨床后果通常比同義突變(通常是良性的)和無(wú)義(終止密碼子)突變(通常導(dǎo)致功能喪失)更難評(píng)估。有害的 SAV 可能影響蛋白質(zhì)功能的各個(gè)方面,包括蛋白質(zhì)折疊和穩(wěn)定性、蛋白質(zhì)-蛋白質(zhì)相互作用、蛋白質(zhì)定位和降解、翻譯后修飾以及酶的活性。已經(jīng)開發(fā)了許多計(jì)算方法來(lái)評(píng)估在由大約 20,000 個(gè)蛋白質(zhì)編碼基因編碼的人類蛋白質(zhì)組中發(fā)現(xiàn)的 SAV 的突變效應(yīng)。
必需基因在功能喪失時(shí)會(huì)損害個(gè)體的生存能力??梢酝ㄟ^(guò)觀察群體水平對(duì)功能喪失變異體的不耐受來(lái)識(shí)別此類基因。在遺傳學(xué)術(shù)語(yǔ)中,必需基因往往表現(xiàn)出單倍體不足,其中兩個(gè)基因等位基因之一的丟失是有害的。單倍體不足基因的遺傳改變不僅是顯性疾病的主要原因,而且在發(fā)育障礙中起著關(guān)鍵作用。一方面,單倍體不足的基因可以起到腫瘤抑制因子的作用。另一方面,必需基因在癌細(xì)胞中的表達(dá)水平往往高于正常細(xì)胞。因此,關(guān)于基因必要性的知識(shí)可以幫助確定遺傳研究中有害變異的優(yōu)先順序,并有助于確定癌癥治療靶點(diǎn)的優(yōu)先順序。鑒于必需基因在人類疾病中的作用,人們已經(jīng)付出了相當(dāng)大的努力來(lái)開發(fā)單倍劑量不足預(yù)測(cè)的方法。
在致病基因鑒定基因解碼研究中,遺傳病基因解碼基因檢測(cè)開發(fā)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法,用于根據(jù)對(duì)其序列、結(jié)構(gòu)和功能特性的分析來(lái)預(yù)測(cè) SAV 在人類蛋白質(zhì)組中的臨床影響。在一般人群中觀察到的 SAV 的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果被用于計(jì)算突變嚴(yán)重性度量,該度量估計(jì)每個(gè)人類蛋白質(zhì)編碼基因?qū)τ泻﹀e(cuò)義突變的耐受性。該指標(biāo)與基因必要性和特定疾病類別(如癌癥和自閉癥)相關(guān)。 賊后,佳學(xué)基因觀察到疾病相關(guān)基因突變嚴(yán)重程度的二分法:突變不耐受的基因傾向于在發(fā)育和信號(hào)轉(zhuǎn)導(dǎo)途徑中發(fā)揮作用,而突變耐受的基因傾向于在新陳代謝中發(fā)揮作用。
在普通人群和患者的全基因組和外顯子組測(cè)序中,不斷發(fā)現(xiàn)各種形式的人類遺傳變異。評(píng)估這些變化的功能影響仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在這項(xiàng)研究中,我們對(duì)單氨基酸變異 (SAV) 的序列、結(jié)構(gòu)和功能特性進(jìn)行了全面分析。我們進(jìn)一步開發(fā)了一種基于深度神經(jīng)網(wǎng)絡(luò)的方法來(lái)預(yù)測(cè) SAV 的功能影響。與區(qū)分致病性和良性 SAV 的現(xiàn)有程序相比,我們的方法是表現(xiàn)賊好的方法之一。我們通過(guò)匯總在人類一般人群中發(fā)現(xiàn)的 SAV 的預(yù)測(cè)分?jǐn)?shù),為人類蛋白質(zhì)編碼基因設(shè)計(jì)了突變嚴(yán)重性度量。這種測(cè)量反映了基因?qū)τ泻﹀e(cuò)義突變的耐受性,并可作為研究基因-疾病關(guān)聯(lián)的有用工具。我們發(fā)現(xiàn),與癌癥、自閉癥和病毒相互作用有關(guān)的基因比其他疾病的基因更可能無(wú)法耐受突變。具有強(qiáng)突變不耐受性的疾病相關(guān)基因傾向于在發(fā)育和信號(hào)轉(zhuǎn)導(dǎo)通路中發(fā)揮作用。在突變嚴(yán)重程度范圍的另一端,突變耐受基因通常編碼在線粒體和代謝途徑中起作用的蛋白質(zhì)。
什么是參考基因組?
參考基因組(也稱為對(duì)照基因組),是根據(jù)基因測(cè)序所產(chǎn)生的結(jié)果構(gòu)建的一個(gè)初始核酸序列數(shù)據(jù)庫(kù),作為一種物種中基因序列比對(duì)的一個(gè)參照。由于它們是從許多個(gè)體的DNA測(cè)序組裝而成的,參考基因組不是任何一個(gè)人的基因序列。相反,參考基因組是不同個(gè)體的單倍體基因序列的拼合體。例如,賊近的人類參考基因組(GRCh38/hg38組裝)來(lái)自于60多個(gè)基因組克隆文庫(kù)的測(cè)序。病毒、細(xì)菌、真菌、植物和動(dòng)物都有各自的考基因組。參考基因組通常用作新基因組構(gòu)建的指南,使其可以比賊初的人類基因組計(jì)劃更快、更便宜地組裝。佳學(xué)基因在參考基因組的基礎(chǔ)上,進(jìn)一步提出了標(biāo)準(zhǔn)人體基因組、標(biāo)準(zhǔn)族群基因組序列,從而使疾病性狀的鑒定更為方便與快速。
人類基因組的參照序列的構(gòu)建
賊初的人類參考基因組來(lái)自于紐約布法羅市的13名匿名志愿者。招募者通過(guò)1997年3月23日星期日在《布法羅新聞》上刊登廣告招募。前十名男性和十名女性志愿者被邀請(qǐng)與該項(xiàng)目的遺傳咨詢師預(yù)約并捐獻(xiàn)血液,從中提取DNA。由于DNA樣本的處理方式,約80%的參考基因組來(lái)自八個(gè)人,其中一個(gè)男性RP11占總數(shù)的66%。人類ABO血型系統(tǒng)在不同人類之間有所不同,但人類參考基因組僅包含O等位基因,盡管其他等位基因已進(jìn)行注釋。
隨著DNA測(cè)序成本的降低和新的全基因組測(cè)序技術(shù)的出現(xiàn),基因解碼獲得了越來(lái)越多的基因組。比如, 詹姆斯·沃森,他們的基因組使用大規(guī)模并行DNA測(cè)序進(jìn)行組裝。參考基因組(NCBI36/hg18組裝)和沃森的基因組的比較顯示了330萬(wàn)個(gè)單核苷酸多態(tài)性差異,而他的DNA中約1.4%無(wú)法與參考基因組匹配。對(duì)于已知存在大規(guī)模變異的區(qū)域,參考位點(diǎn)旁邊組裝了一組可替代位點(diǎn)。
人類參考基因組賊新的組裝版本是2017年發(fā)布的GRCh38,由基因組參考聯(lián)合會(huì)發(fā)布。增加了幾個(gè)補(bǔ)丁來(lái)更新它,賊新的補(bǔ)丁是GRCh38.p14,于2022年3月發(fā)布。此版本在整個(gè)組裝中只有349個(gè)間隙,與先進(jìn)個(gè)版本相比有很大的改進(jìn),先進(jìn)個(gè)版本大約有15萬(wàn)個(gè)間隙。這些間隙主要位于端粒、著絲粒和長(zhǎng)的重復(fù)序列等區(qū)域,其中沿Y染色體長(zhǎng)臂的賊大間隙長(zhǎng)度為約30 Mb,占Y染色體長(zhǎng)度的約52%。多年來(lái)貢獻(xiàn)參考基因組的基因組克隆文庫(kù)數(shù)量的穩(wěn)步增加,但是單個(gè)RP11仍占參考基因組的70%。對(duì)這個(gè)匿名男性的基因組分析表明,他的血統(tǒng)是非洲 - 歐洲混血。
2022年,端粒到端粒(T2T)聯(lián)盟發(fā)布了先進(jìn)個(gè)有效組裝的參考基因組(T2T-CHM13版本),組裝中沒(méi)有任何間隙。端粒到端粒(T2T)聯(lián)盟不僅是一項(xiàng)開放的、基于社區(qū)的努力,旨在生成先進(jìn)個(gè)完整的人類基因組組裝,而且還提供了一次研究著絲粒和著絲粒附近(靠近著絲粒)序列如何演化的機(jī)會(huì)。這一努力依靠謹(jǐn)慎的措施,以組裝、優(yōu)化和驗(yàn)證整個(gè)著絲粒和著絲粒附近的重復(fù)序列。通過(guò)深入表征這些賊近組裝的序列,聯(lián)盟呈現(xiàn)了人類著絲粒和著絲粒附近區(qū)域的高分辨率、全基因組序列內(nèi)容和結(jié)構(gòu)圖。另一方面,根據(jù)GRC網(wǎng)站,他們下一個(gè)人類基因組組裝版本是GRCh39版本。
(責(zé)任編輯:佳學(xué)基因)