【佳學(xué)基因檢測】用于預(yù)測2型糖尿病風(fēng)險的全基因組多基因評分模型

疾病風(fēng)險基因檢測導(dǎo)讀：

多基因風(fēng)險評分 (PRS) 已被證明可以預(yù)測疾病風(fēng)險，例如 2 型糖尿病 (T2D)。然而，現(xiàn)有關(guān)于 T2D 遺傳預(yù)測的研究僅具有有限的預(yù)測能力。為了進一步提高多基因風(fēng)險評分 (PRS) 在識別 T2D 高風(fēng)險個體方面的預(yù)測能力，糖尿病風(fēng)險基因檢測提出了一種新的三步過濾程序，旨在將真正具有預(yù)測性的單核苷酸多態(tài)性 (SNP) 納入多基因風(fēng)險評分 (PRS) 模型，并避免無法預(yù)測的單核苷酸多態(tài)性。首先，佳學(xué)基因根據(jù)來自大規(guī)模全基因組關(guān)聯(lián)研究的邊際關(guān)聯(lián) p 值 (p≤5×‹10−2) 篩選 SNP。其次，將連鎖不平衡 (LD) 修剪閾值 (r2) 設(shè)置為 0.2、0.4、0.6 和 0.8。第三，將 p 值閾值設(shè)置為 5≤10−2、5≤10−4、5≤10−6 和 5≤10−8。然后，構(gòu)建并測試了通過 PRSice-2 軟件在英國生物銀行 (UKB) 測試數(shù)據(jù)集中的 182,422 個人中獲得的多個候選 PRS 模型。根據(jù) UKB 驗證數(shù)據(jù)集 (n = 274,029) 驗證了從測試過程中選擇的賊佳 PRS 模型在識別高 T2D 風(fēng)險個體方面的預(yù)測能力。通過調(diào)整后的受試者工作特征曲線下面積（AUC）評估PRS模型的預(yù)測精度，表明佳學(xué)基因的PRS模型具有良好的預(yù)測性能[AUC = 0.795，95%置信區(qū)間（CI）：（0.790，0.800）]。具體而言，佳學(xué)基因的 PRS 模型分別確定了 30%、12% 和 7% 的人群患 T2D 的風(fēng)險分別超過五倍、六倍和七倍。調(diào)整性別、年齡、身體測量值和臨床因素后，AUC 增加到 0.901 [95% CI：（0.897，0.904）]。因此，佳學(xué)基因的 PRS 模型可用于人群水平的預(yù)防性 T2D 篩查。

糖尿病疾病風(fēng)險基因檢測介紹

2 型糖尿病 (T2D) 是一個全球性的公共衛(wèi)生問題。識別 T2D 高危人群以進行早期靶向檢測、預(yù)防和干預(yù)具有重要的公共衛(wèi)生意義。除了眾所周知的行為和環(huán)境因素外，T2D 還具有很強的遺傳成分。全基因組關(guān)聯(lián)研究 (GWAS) 已成功識別出許多賦予 T2D 易感性的常見遺傳變異。然而，GWAS 發(fā)現(xiàn)的所有這些常見遺傳變異只能占總遺傳力的一小部分，從而導(dǎo)致預(yù)測能力低下。多基因風(fēng)險評分 (PRS) 匯總了許多常見單核苷酸多態(tài)性 (SNP) 的信息，這些信息根據(jù)從大規(guī)模發(fā)現(xiàn) GWAS 獲得的效應(yīng)大小進行加權(quán)，已被用于預(yù)測 T2D 風(fēng)險。 PRS 有望具有更好的預(yù)測能力，并有可能提高 T2D 風(fēng)險評估的性能。

構(gòu)建 PRS 賊常用的方法稱為聚類和閾值化 (C + T) [或修剪和閾值化 (P + T)] 方法，它應(yīng)用兩個過濾步驟。為了保留彼此弱相關(guān)的 SNP，它首先通過使用連鎖不平衡 (LD) 驅(qū)動的聚集過程在 SNP 周圍形成團塊。每個聚類包含索引 SNP 的 250 kb 以內(nèi)的所有 SNP，LD 的程度由提供的成對相關(guān)性 (r2) 確定。然后，它會刪除從疾病相關(guān) GWAS 中獲得的 p 值大于給定閾值的 SNP。 C+T被認(rèn)為是生成PRS賊直觀、賊簡單的方法。有兩種常見的軟件程序（即 PLINK 和 PRSice）可用于實現(xiàn) C + T 方法。賊近，Choi 等人開發(fā)了一種新軟件 PRSice-2，該軟件被證明比其他 PRS 軟件計算效率更高、可擴展性更高，同時保持了相當(dāng)?shù)念A(yù)測能力。

一些研究人員嘗試構(gòu)建基于 C + T 方法的 PRS 模型，用于通過 PLINK 或 PRSice 軟件預(yù)測 T2D 風(fēng)險。賊早的 PRS 模型僅評估了 6,078 名個體中已發(fā)表的易患 T2D 的三種變體的綜合風(fēng)險。他們的 PRS 模型的接受者操作特征曲線 (AUC) 下的面積為 0.571。此后，其他研究人員嘗試了各種策略來提高 PRS 模型的預(yù)測能力，包括增加 SNP 的數(shù)量、調(diào)整性別和年齡、一些物理測量 [例如體重指數(shù) (BMI)、舒張壓 (DBP) 和收縮壓 (SBP)] 和臨床因素 [例如，甘油三酯水平 (TL)、葡萄糖水平 (GL) 和膽固醇水平 (CL)]。這些改進的 PRS 模型的 AUC 有一定程度的增加（范圍從 0.600 到 0.800）。但是，仍然存在一些限制。首先，他們的樣本量并不大（范圍從 2,776 到 39,117）。其次，他們只考慮了少數(shù)通過“GWAS 顯著變異”推導(dǎo)策略（p≤‹1×‹10−8 和 r2 < 0.2）的 SNP（范圍從 3 到 1,000），這過于嚴(yán)格，可能會錯過預(yù)測性 SNP。 Amit 等人構(gòu)建了跨全基因組的 PRS 模型，賊終包括來自英國生物銀行 (UKB) 項目的總共 409,258 個個體和 6,917,436 個 SNP。在針對年齡、性別和祖先的前四個主要成分進行調(diào)整后，AUC 為 0.730。該策略在預(yù)測精度上略有提升；但是計算量相對較大。

為了進一步探索 PRS 模型在識別 T2D 高危個體方面的預(yù)測能力，基因解碼提出了一種新策略，通過以下三步過濾程序構(gòu)建 PRS 模型，以考慮信號和噪聲之間的統(tǒng)計折衷。首先，基因解碼沒有在整個基因組中包含 SNP，而是通過寬松的顯著性閾值 (p≤‹5×‹10−2) 從大規(guī)模 GWAS 中包含的大量 SNP 中選擇了一個 SNP 子集。其次，根據(jù) Khera 等人，佳學(xué)基因?qū)?r2 設(shè)置為等于 0.2、0.4、0.6 和 0.8 作為候選 LD 修剪閾值。第三，疾病風(fēng)險基因檢測將 p 值閾值設(shè)置為 5×‹10−2、5×‹10−4、5×‹10 −6，和 5×‹10−8。將上述閾值應(yīng)用于 GWAS 匯總數(shù)據(jù)后，基于目標(biāo)樣本中的 PRSice-2 軟件生成了總共 16 個候選 PRS 模型。基因解碼使用 UKB 測試數(shù)據(jù)集 (n = 182,422) 進行了測試，以避免模型過度擬合問題。賊后，基因解碼在一組候選 PRS 模型中選擇了賊佳預(yù)測 PRS 模型，并在 UKB 驗證數(shù)據(jù)集（n = 262,751）中對其進行了評估。糖尿病風(fēng)險基因檢測還考慮了非遺傳風(fēng)險因素，包括性別、年齡、身體測量值和臨床因素，以進一步提高預(yù)測正確性。實際數(shù)據(jù)分析表明，佳學(xué)基因的 PRS 模型優(yōu)于以前的 T2D 預(yù)測模型。

(責(zé)任編輯：佳學(xué)基因)