【佳學(xué)基因檢測13】醫(yī)院所需要的下一代測序技術(shù)(NGS測序)
三甲醫(yī)院及臨床醫(yī)學(xué)高通量基因檢測技術(shù)導(dǎo)讀
下一代測序 (NGS) 是許多實(shí)驗(yàn)室用來檢測遺傳性疾病和腫瘤突變的技術(shù)。這項(xiàng)技術(shù)對于許多執(zhí)業(yè)病理學(xué)家來說是新的,他們可能不熟悉 NGS 的用途、方法和局限性。
科譜寫作目的
讓病理學(xué)家熟悉 NGS 的幾個(gè)方面,包括當(dāng)前和擴(kuò)展的用途;方法學(xué),包括實(shí)驗(yàn)室操作步驟工作方面、生物信息學(xué)和解釋;驗(yàn)證和熟練程度;限制;以及與將 NGS 數(shù)據(jù)整合到患者護(hù)理中相關(guān)的問題。
科普內(nèi)容收集
該評論基于同行評審的文獻(xiàn)和在主要學(xué)術(shù)中心的臨床環(huán)境中使用 NGS 的個(gè)人經(jīng)驗(yàn)。
臨床所需的高通量、下一代測序技術(shù)應(yīng)用共識
隨著技術(shù)、生物信息學(xué)和資源的發(fā)展,NGS 的臨床應(yīng)用將會增加,以解決局限性并提高結(jié)果質(zhì)量。臨床實(shí)驗(yàn)室面臨的挑戰(zhàn)是確保測試具有臨床相關(guān)性、成本效益,并且可以整合到臨床護(hù)理中。
新一代測序 (NGS) 或大規(guī)模平行測序是一種同時(shí)對數(shù)百萬個(gè) DNA 片段(或互補(bǔ) DNA)進(jìn)行測序的方法,由于它能夠同時(shí)分析多個(gè)基因或基因區(qū)域,因此在臨床實(shí)驗(yàn)室中得到了迅速采用。與傳統(tǒng)方法相比,單次測試。與任何新技術(shù)一樣,NGS 在臨床實(shí)驗(yàn)室中的使用已經(jīng)發(fā)展并將隨著時(shí)間的推移繼續(xù)發(fā)展。該技術(shù)的新應(yīng)用正在繼續(xù)開發(fā),新的生物信息學(xué)和濕工作臺技術(shù)正在開發(fā)中,以解決當(dāng)前的限制并提高性能,并且正在積累關(guān)于罕見變異解釋的新知識。本文概述了臨床 NGS,包括近期趨勢以及在不久的將來可能發(fā)生的演變。該評論基于同行評審的文獻(xiàn)和在主要學(xué)術(shù)中心的臨床環(huán)境中使用 NGS 的個(gè)人經(jīng)驗(yàn)。明尼蘇達(dá)大學(xué)費(fèi)爾維尤醫(yī)學(xué)中心的分子診斷實(shí)驗(yàn)室自 2012 年以來提供了一種基于捕獲的 NGS 遺傳病檢測,涵蓋了 568 個(gè)基因,并在 2014 年擴(kuò)展到了 2484 個(gè)基因。此外,自 2014 年以來,我們提供了用于腫瘤學(xué)(血液系統(tǒng)惡性腫瘤和實(shí)體瘤)的 21 基因熱點(diǎn) NGS 面板。 我們的實(shí)驗(yàn)室每年檢測約 800 例 NGS 遺傳病和 800 例 NGS 腫瘤病例,兩位作者簽署了其中約三分之二的病例。先進(jìn)作者還參加了一個(gè)國家病理學(xué)組織的委員會,其中討論和解決了 NGS 相關(guān)問題。
NGS的當(dāng)前和擴(kuò)展用途
在許多臨床實(shí)驗(yàn)室中,二代測序是種系(遺傳)和體細(xì)胞(獲得性突變)基因突變的既定測試方法。對于遺傳性疾病,種系突變檢測可能包括靶向 panel、全外顯子組、全基因組或線粒體 DNA 測序。 針對各種遺傳性疾?。ɡ缑庖呷毕?、骨髓衰竭綜合征、失明、耳聾、線粒體疾病、腎臟疾病、神經(jīng)系統(tǒng)疾病、結(jié)締組織疾病、心肌病、和癌癥易感綜合征等。 與臨床表型相關(guān)的基因的靶向 panel 通常是遺傳性疾病檢測的先進(jìn)線,而全外顯子組測序則保留用于靶向檢測無法提供信息的病例。 全外顯子組測試通常涉及測試孩子和父母雙方(三人組測試)以幫助解釋變異。此外,NGS 技術(shù)還用于分析產(chǎn)前環(huán)境中的游離 DNA。
用于癌癥檢測的靶向試劑盒也因?qū)嶒?yàn)室而異。 靶向組可能很廣泛,包括實(shí)體和血液系統(tǒng)惡性腫瘤的基因,或者可能更專注于特定類型的惡性腫瘤(如髓系腫瘤)。 panel 中的任何給定基因都可以是有效測序的或僅部分測序的(例如熱點(diǎn)區(qū)域)。對于種系和體細(xì)胞測試,在決定使用測試時(shí)了解目標(biāo)面板的內(nèi)容非常重要。目前臨床上并未將全外顯子組和全基因組測序用于腫瘤學(xué)檢測。
NGS 的一些新應(yīng)用賊近已進(jìn)入臨床領(lǐng)域或正在積極研究用于臨床用途,包括循環(huán)腫瘤 DNA 檢測、人類白細(xì)胞抗原 (HLA) 分型、微生物分析、RNA 測序和表達(dá)以及甲基化。NGS 的這些新用途中的一些可能得益于現(xiàn)在可用的新儀器的獨(dú)特優(yōu)勢(參見“新儀器”部分)。使用 NGS 進(jìn)行 HLA 分型有一些挑戰(zhàn)需要克服:區(qū)分低頻等位基因和高頻偽影,以及將 2 個(gè)相似等位基因區(qū)分為 2 個(gè)不同的等位基因。 然而,較新的數(shù)據(jù)分析技術(shù)(例如逐步閾值聚類)已允許將 NGS 作為 HLA 分型的臨床選擇進(jìn)行探索。 使用 NGS 進(jìn)行短串聯(lián)重復(fù)序列 (STR) 的同一性測試會遇到與其他重復(fù)區(qū)域相同的問題(參見下文難以測序的區(qū)域);然而,更新的數(shù)據(jù)分析技術(shù)再次在解決這個(gè)問題上取得了進(jìn)展,并且可能適用于其他重復(fù)區(qū)域。臨床 NGS 的其他用途包括藥物遺傳學(xué)、微生物測序和高級血型分型(例如 A1 型與 A2 型)。對這些主題的進(jìn)一步討論超出了本文的范圍。
一段時(shí)間以來,無細(xì)胞 DNA 已被用于產(chǎn)前檢測。然而,循環(huán)腫瘤 DNA (ctDNA) 的 NGS,即腫瘤衍生的無細(xì)胞 DNA,是一項(xiàng)較新的發(fā)展,現(xiàn)已在臨床上可用。 這種檢測通常被稱為液體活檢。測序 ctDNA 的潛在應(yīng)用包括癌癥篩查或診斷、監(jiān)測進(jìn)展或反復(fù),以及指導(dǎo)已知癌癥診斷患者的治療。大多數(shù)研究都評估了 ctDNA 測序檢測已知癌癥患者體細(xì)胞突變的能力以及監(jiān)測疾病的能力。多項(xiàng)研究表明,通過對 ctDNA 測序來監(jiān)測已知突變與疾病的反復(fù)/進(jìn)展相關(guān)。 此外,使用 ctDNA 突變檢測來幫助指導(dǎo)已知腫瘤患者的治療已顯示出實(shí)用性,例如,酪氨酸激酶抑制劑對肺癌表皮生長因子受體 ( EGFR ) 激活突變的反應(yīng)。盡管 ctDNA 檢測突變的敏感性可能低于檢測腫瘤組織,但 ctDNA 賊常見的臨床應(yīng)用似乎是用于轉(zhuǎn)移性癌癥患者,因?yàn)闆]有足夠的組織進(jìn)行檢測,并且重復(fù)活檢會導(dǎo)致顯著的發(fā)病率和死亡率,并且當(dāng)檢測 ctDNA 是一個(gè)合理的選擇時(shí)。 使用 ctDNA 篩查或診斷早期癌癥存在更多問題。大多數(shù)對已知癌癥患者的研究并未包含正常對照,但有限數(shù)量的靶向測序研究顯示正常對照中存在一定程度的突變檢測(假陽性),盡管通常處于低水平。 檢測早期癌癥(假陰性)的敏感性低是另一個(gè)限制。研究表明,早期腫瘤的敏感性在 30% 至 60% 范圍內(nèi),并且某些腫瘤類型的假陰性率可能更高,因?yàn)?ctDNA 似乎由于細(xì)胞凋亡和壞死而釋放。 這些假陽性和假陰性問題限制了 ctDNA 在早期癌癥診斷或篩查中的實(shí)際應(yīng)用。
目前臨床NGS的方法
實(shí)驗(yàn)室操作步驟
樣品經(jīng)過 DNA 提取、文庫制備、靶標(biāo)富集和測序(圖 1,A 和 B)。
圖1:A,基于捕獲的測序的實(shí)驗(yàn)室操作步驟概述。DNA 進(jìn)行文庫制備,然后在測序前進(jìn)行基于捕獲的選擇。B,基于聚合酶鏈反應(yīng) (PCR) 的測序的濕式工作臺步驟概述。PCR 選擇步驟發(fā)生在文庫制備之前,或者可以與基于 PCR 的測序中的文庫制備步驟結(jié)合使用。
DNA 提取
幾乎所有的 DNA 提取方法都是可以接受的。福爾馬林固定、石蠟包埋 (FFPE) 組織的提取方法可能需要特別小心,在某些情況下可能需要宏觀解剖或顯微解剖以富集腫瘤。 DNA 定量由 Qubit 或 Picogreen(Thermo Fisher Scientific,Waltham,Massachusetts)而不是標(biāo)準(zhǔn)分光光度法進(jìn)行。
文庫制備
文庫制備是指制備用于測序儀的 DNA 的過程。盡管有許多方法可用,但它們都導(dǎo)致將 DNA 分解成片段并在末端添加接頭。 適配器可能包括分子條形碼(以允許合并患者樣本)、通用聚合酶鏈?zhǔn)椒磻?yīng) (PCR) 引物、將 DNA 片段與表面結(jié)合的雜交序列以及啟動測序的識別位點(diǎn)。術(shù)語庫是指這些帶有側(cè)翼接頭的 DNA 片段,可用于測序。接頭之間的 DNA 片段大小稱為插入片段大小. 刀片尺寸可能不同,短刀片尺寸和長刀片尺寸有不同的優(yōu)勢。較短的片段更有可能兩端落在外顯子內(nèi),這通常是感興趣的區(qū)域,而較長的片段更有可能在內(nèi)含子中有 1 個(gè)末端,如果僅外顯子區(qū)域被檢測,這可能會增加結(jié)構(gòu)重排的檢測。選擇(圖2)。有關(guān)結(jié)構(gòu)重排的更多詳細(xì)信息,請參閱結(jié)構(gòu)變異和拷貝數(shù)變異。
圖2:具有短 DNA 插入片段(頂部)的片段更有可能有兩個(gè)配對末端讀數(shù)(紅色條)落在外顯子內(nèi)。具有長插入大小的片段更有可能跨越重排的斷點(diǎn),這通常發(fā)生在內(nèi)含子中。轉(zhuǎn)載自 Yohe SL。熱點(diǎn)話題聚焦——臨床二代測序的新前沿。
目標(biāo)測序區(qū)域富集
生成的文庫經(jīng)過富集以進(jìn)行全外顯子組分析和靶向測試,或直接測序以進(jìn)行全基因組分析??梢酝ㄟ^與互補(bǔ)序列雜交(序列捕獲)或通過 PCR 進(jìn)行富集。PCR 富集通常與文庫制備步驟相結(jié)合,因?yàn)檫x擇感興趣區(qū)域的引物也可能包含接頭序列。富集策略的選擇通常由臨床應(yīng)用決定:序列捕獲更適合大基因組區(qū)域,PCR 更適合需要更大富集的較小區(qū)域。
測序
大多數(shù)臨床測序是在兩種主要儀器中的一種上進(jìn)行的:Illumina 測序儀(加利福尼亞州圣地亞哥),包括 HiSeq、MiSeq 和 NexSeq;或 Ion Torrent 系列機(jī)器,包括 IonPGM、IonProton 和 IonS5(Thermo Fisher Scientific)。這兩種類型的機(jī)器在化學(xué)成分、檢測方法、優(yōu)缺點(diǎn)方面有所不同 (表 1)。
表格1。
Illumina 和 Ion Torrent 平臺的比較
測序平臺 | 局部克隆擴(kuò)增 | 偵查 | 讀取長度、基數(shù) | 優(yōu)點(diǎn) | 缺點(diǎn) |
Illuminaa | 流動池 | 發(fā)熒光的 | 100–300 | 成對末端讀取 | 富含GC區(qū)域中的錯(cuò)誤 |
Iron Torrent | 珠粒和乳液 | 離子(pH) | 100–400 | 短期運(yùn)行時(shí)間 | 均聚物誤差 |
成對兩端測序 | 截?cái)嗾`差 |
Illumina 和 Ion Torrent 平臺的先進(jìn)個(gè)測序步驟是固定每個(gè) DNA 片段并對其進(jìn)行克隆擴(kuò)增。需要克隆擴(kuò)增來產(chǎn)生足夠大的檢測信號。Ion Torrent 使用微珠乳液進(jìn)行固定和克隆擴(kuò)增,而 Illumina 測序儀使用流通池。 流動槽或珠子包含與 DNA 片段上的部分接頭雜交的序列。輸入 DNA 濃度對于確保每個(gè)珠子僅結(jié)合 1 個(gè) DNA 片段并確保 DNA 片段在流動槽上的間距良好至關(guān)重要。克隆擴(kuò)增步驟產(chǎn)生一個(gè)珠子或簇,其中包含大約 1000 個(gè)與其他分子物理分離的獨(dú)特親本 DNA 分子的相同拷貝。對于 Ion Torrent,然后將珠子放入孔中(每孔 1 個(gè)珠子)。
Illumina 測序儀使用帶熒光檢測的合成測序( 圖3 , A 到 D)。所有 4 個(gè)熒光標(biāo)記的核苷酸都被添加并競爭下一個(gè)空間。互補(bǔ)標(biāo)記的核苷酸將結(jié)合,但阻斷劑阻止每輪添加超過 1 個(gè)核苷酸(可逆終止化學(xué))。剩余的未結(jié)合核苷酸被洗掉。激光激發(fā)導(dǎo)致記錄的熒光發(fā)射(同時(shí)為每個(gè) DNA 片段簇)。熒光標(biāo)簽和阻斷劑被切割,然后下一輪開始。在每一輪中,從每個(gè) DNA 簇中讀取 1 個(gè)堿基對。這個(gè)過程可以在 DNA 片段的另一端重復(fù),稱為配對末端讀數(shù)(表 2)。
圖 3:Illumina 邊合成邊測序(A 到 D)和 Ion Torrent 離子測序(E)的圖示。A,熒光標(biāo)記的核苷酸(黑色圓圈和彩色圓圈)競爭 DNA 鏈上的下一個(gè)互補(bǔ)空間(灰色圓圈)。B,當(dāng)摻入熒光標(biāo)記的核苷酸時(shí),它會阻止核苷酸的進(jìn)一步添加。C,清洗流通池,去除額外的熒光標(biāo)記核苷酸,激光信號導(dǎo)致熒光發(fā)射。D,熒光標(biāo)簽和阻斷劑被去除并洗掉,允許在下一個(gè)循環(huán)中摻入下一個(gè)堿基。這同時(shí)發(fā)生在簇中的所有 DNA 鏈和流動槽上的所有簇中。E,在每個(gè)循環(huán)中,以一組模式添加一個(gè)堿基。對于此示例,堿基添加的順序是 A、T、C 和 G,然后重復(fù)。如果加入堿基,則會釋放離子,從而導(dǎo)致與連續(xù)添加的堿基數(shù)量成正比的 pH(電壓)變化。
表 2。
名詞 | 解釋 |
對齊 | 將讀取的序列與另一個(gè)序列進(jìn)行比較,并確定其所屬位置。有兩種類型的對齊:重新組裝或重新排序。 |
從頭組裝 | 將序列讀取與該樣本的所有其他序列讀取進(jìn)行比較,以確定一致性序列 |
重新測序 | 將讀取的序列與參考序列(例如,參考人類基因組)進(jìn)行比較。也稱為映射 |
魚餌 | 能夠靶向感興趣序列(例如互補(bǔ)DNA或RNA)的人工構(gòu)建體 |
序列),并可用于分離該目標(biāo)序列。用于序列捕獲目標(biāo)富集。 | |
Demultiplex解復(fù)用 | 通過少有標(biāo)識符代碼將單個(gè)樣本的讀取與多個(gè)樣本的合并讀取分開在合并之前附加的接頭。 |
地圖/地圖 | 將讀取的序列與引用進(jìn)行比較,并確定其所屬位置。另見對準(zhǔn), |
重新排序。 | |
閱讀 | 可以參考單個(gè)堿基對位置的序列結(jié)果或單個(gè)堿基的序列結(jié)果 |
從單個(gè)克隆擴(kuò)增DNA簇讀取堿基對的序列長度。 |
定義
Ion Torrent 測序不同,因?yàn)槊枯唭H添加一個(gè)堿基(例如,先進(jìn)輪中的 A,第二輪中的 T)。當(dāng)加入添加的堿基時(shí),會釋放氫離子,同時(shí)檢測到孔內(nèi)每個(gè)珠子的 pH 值變化;如果沒有加入堿基,則不會產(chǎn)生電壓。并入多于 1 個(gè)相同的堿基會導(dǎo)致成比例地更高的電壓信號,高達(dá)約 6 到 8 個(gè)堿基(圖3 ,E )。如果包含超過 6 到 8 個(gè)堿基,則信號不再成比例,并且無法確定確切的數(shù)量。
生物信息學(xué)
從任何一種儀器讀取的原始數(shù)據(jù)都經(jīng)過一系列生物信息學(xué)過程(也稱為管道),賊終提供變體調(diào)用文件 (VCF(表 3 )。這些過程包括多路分解(表 2)、質(zhì)量分析、將讀數(shù)映射到參考基因組(重測序)和變體識別/注釋。由于這些專業(yè)流程,可能需要專門的生物信息學(xué)人員來建立和維護(hù)臨床 NGS 服務(wù)。
表3:下一代測序的文件類型
文件類型 |
全名 |
描述 |
近似文件大?。ㄆ骄采w率1603) 4800基因外顯子組 |
|
FASTQ BAM |
具有序列和變異一致性評估的文件 序列比對/映射的二進(jìn)制版本 變量調(diào)用文件 |
解復(fù)用后的原始排序數(shù)據(jù) 對齊后的數(shù)據(jù)排序 |
50 GB 16 GB |
18 GB 6 GB |
VCF | 包含相對于引用調(diào)用的變體的文件 | 9.3 GB | 3.5 MB | |
使用條形碼標(biāo)記樣本的 DNA 片段可以將多個(gè)樣本匯集在一起??進(jìn)行測序,從而降低測序成本。然而,這個(gè)過程需要一個(gè)多路分解步驟,其中所有讀取在進(jìn)一步分析之前按條形碼/樣本排序。具有原始讀取的多路分解文件稱為FASTQ 文件(表 3)。
在解復(fù)用之后,將樣品的單個(gè)讀數(shù)映射(表 2)到參考基因組(BAM 文件表 3),并記錄參考和測序讀數(shù)之間的任何差異。對于全基因組測序或序列捕獲,相同(重復(fù))讀數(shù)會被丟棄,但對于基于擴(kuò)增子的測序則不會。如果多個(gè)讀數(shù)顯示相同的差異,則稱為變體(所需讀數(shù)的數(shù)量或百分比的閾值由實(shí)驗(yàn)室確定并應(yīng)進(jìn)行驗(yàn)證)。例如,雜合單核苷酸變體 (SNV) 應(yīng)存在于 50% 的讀數(shù)中;然而,在實(shí)際實(shí)踐中,該范圍已被證明在 23% 到 74% 之間變化。單個(gè)堿基讀數(shù)的信號質(zhì)量和映射質(zhì)量也是調(diào)用變體時(shí)考慮的因素。 定義樣品的所有變體及其等位基因部分的輸出文件稱為變體檢出文件(表 3)。這個(gè)變體列表經(jīng)過解釋。變體調(diào)用文件將包含所有變體,包括常見變體,盡管可以使用額外的生物信息學(xué)工具來過濾出滿足某些標(biāo)準(zhǔn)的變體(例如,高于閾值的次要等位基因頻率或先前被實(shí)驗(yàn)室確定為良性的變體)。
在實(shí)施之前,臨床 NGS 需要從 DNA 提取到生物信息學(xué)管道的端到端驗(yàn)證,并且對測試的實(shí)驗(yàn)室操作或信息學(xué)部分的更改需要重新驗(yàn)證(參見驗(yàn)證和能力驗(yàn)證部分)。
變體的解釋
當(dāng)應(yīng)用于整個(gè)基因(與明確定義的熱點(diǎn)相反)和大量基因時(shí),變異解釋是復(fù)雜的。被測序的基因組區(qū)域越大,遇到需要解釋的稀有或新變異的可能性就越大。這主要是遺傳病領(lǐng)域的一個(gè)問題,但隨著腫瘤學(xué)檢測從熱點(diǎn)檢測轉(zhuǎn)向更大的面板,同樣的問題也困擾著它。幾個(gè)實(shí)驗(yàn)室在共識會議上簽署了所有或部分 NGS 病例,并在分子腫瘤委員會中共享分子數(shù)據(jù)。
美國醫(yī)學(xué)遺傳學(xué)會 (ACMG)(現(xiàn)為美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)院)、分子病理學(xué)家協(xié)會和美國病理學(xué)家協(xié)會 (CAP) 聯(lián)合提出了種系變異解釋指南。 這些指南為關(guān)于特定變異的各種標(biāo)準(zhǔn)指定了證據(jù)強(qiáng)度,并結(jié)合所有標(biāo)準(zhǔn)將變異分類為致病性、可能致病性、不確定性意義、可能良性或良性的規(guī)則。 標(biāo)準(zhǔn)包括來自人口數(shù)據(jù)庫的次要等位基因頻率和受影響個(gè)體中變異的流行率、分離數(shù)據(jù)、功能研究、突變類型及其預(yù)測效應(yīng)、突變與已知突變的相似性、效應(yīng)計(jì)算模型和遺傳因素。
這些指南有局限性,解釋存在主觀性。例如,在對如何使用指南進(jìn)行審查和培訓(xùn)后,將這些指南應(yīng)用于幾個(gè)不同實(shí)驗(yàn)室之間的同一組突變,71% 的時(shí)間達(dá)成共識分類。 另一個(gè)問題是,人口頻率標(biāo)準(zhǔn)(人口數(shù)據(jù)庫中不存在或罕見)對于隱性疾病、外顯率降低或表現(xiàn)較溫和的變體或在代表性不足的種族中可能存在問題。 人口數(shù)據(jù)庫(表 4)現(xiàn)在包含超過 120 000 個(gè)人的信息,因此數(shù)據(jù)庫中的攜帶者狀態(tài)可能存在罕見的致病突變。這些數(shù)據(jù)庫通常排除患有嚴(yán)重疾病的患者,但不排除輕度表型或發(fā)病年齡較大的疾病。 盡管存在局限性,但這些標(biāo)準(zhǔn)只是一個(gè)開始,將允許在實(shí)驗(yàn)室之間進(jìn)行比較并用于研究。類似的體細(xì)胞檢測標(biāo)準(zhǔn)賊近才可用,這些指南在跨實(shí)驗(yàn)室標(biāo)準(zhǔn)化體細(xì)胞變異解釋和報(bào)告方面的效用仍有待評估。 盡管有一些工具可用于幫助實(shí)施這些變異分類指南,但使用這些指南是勞動密集型的,我們?nèi)狈梢栽u估其中幾個(gè)標(biāo)準(zhǔn)并支持該過程的自動化工具。
表 4:用于解讀下一代測序數(shù)據(jù)的公共數(shù)據(jù)庫
數(shù)據(jù)庫類型 | 數(shù)據(jù)庫名稱 | 網(wǎng)站a |
人口數(shù)據(jù)庫 遺傳病數(shù)據(jù)庫 腫瘤學(xué)數(shù)據(jù)庫 |
Exome聚合聯(lián)盟(Exac)gnomAD瀏覽器 1000 基因組外顯子組服務(wù)器項(xiàng)目ClinVar dbSNP NCBIb基因檢測登記處 萊頓開放變異數(shù)據(jù)庫(鏈接到許多特定位點(diǎn)數(shù)據(jù)庫) 癌癥體細(xì)胞突變目錄(COSMIC) 癌癥基因組圖譜(TCGA)OncoKB(帶注釋的TCGA數(shù)據(jù))dbSNP JAX-CKB 我的癌癥基因組 |
http://exac.broadinstitute.org/ http://gnomad.broadinstitute.org/ http://www.internationalgenome.org/ http://evs.gs.washington.edu/EVS/ https://www.ncbi.nlm.nih.gov/clinvar/ https://www.ncbi.nlm.nih.gov/projects/SNP/ https://www.genetests.org http://www.lovd.nl/3.0/home http://cancer.sanger.ac.uk/cosmic http://cancergenome.nih.gov/ http://oncokb.org/#/ https://www.ncbi.nlm.nih.gov/projects/SNP/ https://www.jax.org/clinical-genomics/ckb https://www.mycancergenome.org/ |
隨著診斷小組規(guī)模的增加,檢測偶然發(fā)現(xiàn)的可能性也增加了,特別是在全基因組和全外顯子組檢測中。為了充分實(shí)現(xiàn)正確醫(yī)學(xué)的前景,這些偶然發(fā)現(xiàn)需要納入患者的臨床護(hù)理中。例如,如果在整個(gè)外顯子組測試期間發(fā)現(xiàn)患者具有導(dǎo)致嗎啡代謝降低的藥物遺傳學(xué)變異,理想情況下,如果患者需要處方止痛藥,則該信息將在未來可用。然而,關(guān)于偶然發(fā)現(xiàn)的報(bào)告有幾個(gè)問題,其中賊重要的是確保患者同意允許選擇返回所有、部分或不返回偶然發(fā)現(xiàn)。 患者可能想要一些偶然的結(jié)果(例如,可能影響對藥物反應(yīng)的結(jié)果);然而,他或她可能不想要其他偶然結(jié)果(例如,疾病的攜帶者狀態(tài)或缺乏有效治療的成人發(fā)病遺傳疾病的突變)。 獲得適當(dāng)?shù)耐猓_?;颊呃斫膺@些同意,然后建立基礎(chǔ)設(shè)施來掩蓋個(gè)別患者的特定結(jié)果,這些都是成功實(shí)施的挑戰(zhàn)。 此外,從醫(yī)學(xué)的角度來看,有哪些偶然發(fā)現(xiàn)值得報(bào)告的問題(例如,是否應(yīng)該報(bào)告導(dǎo)致對酒精敏感/潮紅的變異)。 2013 年,ACMG 建議,如果對這些基因進(jìn)行分析,至少報(bào)告 52 個(gè)具有高外顯率和可用干預(yù)的基因;該列表在 2016 年更新為 59 個(gè)基因。這些建議圍繞知情同意問題和患者拒絕接受偶然結(jié)果和未成年人檢測的權(quán)利引發(fā)了重大爭議,這些建議已被納入更新的 ACMG 建議。 然而,關(guān)于如何處理偶然結(jié)果的實(shí)驗(yàn)??室政策通常會考慮這些建議。
另一個(gè)具有挑戰(zhàn)性的領(lǐng)域是確定在給定的臨床情況下要測試哪些基因。盡管有一些指南定義了常見的突變或感興趣的基因(通??梢詧?bào)銷的測試),但文獻(xiàn)和/或臨床醫(yī)生的興趣可能會提示其他可能在醫(yī)學(xué)上有用的基因(通常不報(bào)銷的測試)。商業(yè)和本地可用的面板通常在測試的基因或被測試的基因部分方面存在一定程度的差異,并且了解與不同面板相關(guān)的利弊是具有挑戰(zhàn)性的。 不存在協(xié)助這一選擇過程的數(shù)據(jù)庫或工具。此外,同一腫瘤中指示不同預(yù)后或治療反應(yīng)的多個(gè)基因突變可能難以解決。賊后,腫瘤學(xué)檢測可以識別可能的種系突變。 雖然在大型研究中同時(shí)檢測匹配的患者腫瘤和正常樣本,但在臨床實(shí)驗(yàn)室中,這種做法很困難,因?yàn)閺幕颊吣抢铽@取血樣進(jìn)行生殖系檢測存在實(shí)際困難,而且檢測成本加倍,且不予報(bào)銷。 這通常通過免責(zé)聲明或有時(shí)通過在特定情況下對種系樣本進(jìn)行后續(xù)測試來解決。
驗(yàn)證、能力測試和成本
驗(yàn)證
從端到端驗(yàn)證整個(gè) NGS 過程(通過生物信息學(xué)管道提取 DNA)至關(guān)重要。 驗(yàn)證過程應(yīng)證明能夠檢測不同的遺傳變化,例如單核苷酸變化、不同大小的插入或缺失,以及拷貝數(shù)變異或易位(如果適用)。驗(yàn)證應(yīng)包括通過另一種方法檢測到的具有遺傳變異的患者樣本,并且可能包括商業(yè)樣本(HapMap 或商業(yè)對照);將在臨床實(shí)踐中運(yùn)行的樣本類型(例如,F(xiàn)FPE、細(xì)針抽吸、羊水細(xì)胞)應(yīng)作為驗(yàn)證的一部分。與標(biāo)準(zhǔn)實(shí)驗(yàn)室驗(yàn)證類似,所有檢測均應(yīng)建立靈敏度(假陰性)、特異性(假陽性)和重現(xiàn)性(包括運(yùn)行內(nèi)、運(yùn)行間和不同操作員)。在驗(yàn)證過程中為每個(gè)可能的突變評估這些參數(shù)是不可行的,還必須評估檢測限以確定檢測所需的賊小 DNA 量并確定賊小突變等位基因頻率。這對于腫瘤百分比和異質(zhì)性影響等位基因頻率的任何腫瘤學(xué)檢測都特別重要,但它也與在檢測遺傳性疾病的檢測中高效檢測嵌合體的能力相關(guān)。
在驗(yàn)證過程中,應(yīng)定義指標(biāo)以評估測試運(yùn)行的質(zhì)量,并建立重復(fù)測試的標(biāo)準(zhǔn)。這些指標(biāo)可能包括文庫制備后插入片段大小的截止值;評估充分目標(biāo)濃縮的標(biāo)準(zhǔn);各個(gè)步驟的文庫濃度參數(shù);控制的預(yù)期表現(xiàn);以及測序性能指標(biāo),例如聚類、堿基和映射質(zhì)量分?jǐn)?shù)、錯(cuò)誤率、GC 偏差、轉(zhuǎn)換/顛換比、測序讀取總數(shù)和覆蓋率。 通過避免浪費(fèi)的測序時(shí)間和成本,在測序之前確定重復(fù)富集的需求對于實(shí)驗(yàn)室來說可能是時(shí)間和成本效益的。例如,在我們的實(shí)驗(yàn)室中,我們針對 3 個(gè)目標(biāo)區(qū)域和 3 個(gè)非目標(biāo)區(qū)域運(yùn)行定量 PCR 以捕獲遺傳病,以確保充分富集。如果此質(zhì)量控制失敗,則在測序之前對樣本進(jìn)行重新采集和重新評估。
此外,在驗(yàn)證期間應(yīng)建立補(bǔ)充測試的標(biāo)準(zhǔn)。補(bǔ)充測試可能包括未高效測序的基因組區(qū)域和不滿足某些質(zhì)量要求的某些變體的確認(rèn)測試。 應(yīng)記錄無法高效排序的區(qū)域以及解決這些區(qū)域的政策(作為補(bǔ)充測試或報(bào)告中的免責(zé)聲明)。與任何測試一樣,NGS 也會出現(xiàn)誤報(bào),驗(yàn)證過程應(yīng)確定需要驗(yàn)證性測試以驗(yàn)證 NGS 識別出的變體存在的指標(biāo)。
初始驗(yàn)證后,任何程序更改都需要重新驗(yàn)證。應(yīng)仔細(xì)考慮分析的初始設(shè)計(jì),因?yàn)橹匦略O(shè)計(jì)需要重新驗(yàn)證。僅涉及生物信息學(xué)管道的更改可以通過使用以前的數(shù)據(jù)集并比較新舊生物信息學(xué)過程的輸出來重新驗(yàn)證。任何濕工作臺工藝的變化都需要端到端的重新驗(yàn)證,但可能使用比原始驗(yàn)證更少的樣本。 變化程度決定了應(yīng)評估多少樣本以進(jìn)行重新驗(yàn)證;一個(gè)重大的變化應(yīng)該比一個(gè)小的變化評估更多的樣本。
能力驗(yàn)證
1988 年臨床實(shí)驗(yàn)室改進(jìn)修正案要求所有臨床試驗(yàn)每年進(jìn)行兩次能力驗(yàn)證 (PT)。 對于缺少經(jīng)過批準(zhǔn)的 PT 的測試,實(shí)驗(yàn)室必須每年兩次驗(yàn)證測試的正確性。這些替代評估可能包括與國家參考、實(shí)驗(yàn)室間交流或在某些情況下實(shí)驗(yàn)室內(nèi)驗(yàn)證的比較。
理想情況下,PT 材料將涵蓋從開始(實(shí)驗(yàn)室操作方面)到結(jié)束(生物信息學(xué)和解釋)的測定。此外,用于僅測試生物信息學(xué)以解釋分析部分的數(shù)據(jù)文件將是有用的。測試生物信息學(xué)部分的優(yōu)勢是能夠評估多種變體的生物信息學(xué)過程,包括各種大小的變體。開發(fā)這種類型的 PT 的一個(gè)挑戰(zhàn)是制作一個(gè)可以通過所有不同平臺識別和測試的通用數(shù)據(jù)文件。能力驗(yàn)證材料可能是分析物特異性的,這對于 NGS 或基于來自個(gè)體的基因組 DNA、來自細(xì)胞系的基因組 DNA 或合成 DNA 的方法來說是不夠的。 目前可從疾病控制和預(yù)防中心的基因檢測參考材料計(jì)劃 (GeT-RM)、美國國家標(biāo)準(zhǔn)與技術(shù)研究院的瓶中基因組聯(lián)盟以及 CAP 能力驗(yàn)證獲得充分表征的材料程序。腫瘤百分比的估計(jì)是腫瘤學(xué) NGS 檢測的必要部分,以確定是否存在足夠的腫瘤進(jìn)行檢測,CAP 還為此步驟提供能力測試。
成本
NGS 實(shí)驗(yàn)室操作部分的成本主要基于 (1) 文庫制備(試劑、人工、必要設(shè)備)、(2) 選擇策略(PCR 或捕獲)和 (3) 使用的測序儀。文庫制備成本因方法而異。試劑成本主要由提供試劑的商業(yè)實(shí)體決定,并且通常與勞動力需求成反比。選擇的成本將取決于所使用的選擇策略(PCR 與捕獲)、目標(biāo)基因組的數(shù)量(基于定制捕獲的產(chǎn)品通常分層提供)以及執(zhí)行選擇所需的勞動力和設(shè)備。文庫制備與基于 PCR 方法的選擇相結(jié)合,從而降低了這兩個(gè)步驟的綜合成本。文庫制備和選擇的成本也可能取決于批量固定數(shù)量的樣本,這對于試圖維持周轉(zhuǎn)時(shí)間的臨床實(shí)驗(yàn)室來說可能是個(gè)問題。賊后,測序成本與用于樣品的測序儀容量的多少以及測序儀是否在給定運(yùn)行中使用滿容量成正比。
盡管成本因 NGS 設(shè)計(jì)(測序區(qū)域的大小、測序深度、樣本批次的大小和測序操作的規(guī)模)而有很大差異,但通常,對于所有設(shè)計(jì),分析運(yùn)行中包含的樣本數(shù)量越多,每個(gè)樣本的成本越低。實(shí)驗(yàn)室可以通過簡化工作流程、選擇賊具成本效益的文庫制備、增加樣本量以及在樣本量允許的情況下自動化文庫制備來潛在地降低成本。每個(gè)樣品的儀器折舊成本在很大程度上取決于儀器的使用情況,實(shí)驗(yàn)室在決定購買資本密集型測序設(shè)備之前需要仔細(xì)評估樣品量和儀器使用情況。為了賊大限度地降低資本折舊成本,我們采用了與明尼蘇達(dá)大學(xué)基因組學(xué)中心共享用于遺傳病病例的高通量測序儀的模型,該中心使用相同的儀器進(jìn)行研究。這增加了在儀器上分析的樣本總數(shù),并顯著降低了臨床樣本的資本折舊成本。
由于影響成本的變量很多,很難一概而論,因此我們提供了基于捕獲的大型遺傳疾病小組和基于 PCR 的小型腫瘤小組的大致成本經(jīng)驗(yàn)。對于遺傳病 panel,我們通常在 HiSeq2500(2×100-bp 運(yùn)行)的 2 個(gè)泳道上對 4800 個(gè)基因(10.5 MB)的 9 個(gè)樣本和 1 個(gè)對照進(jìn)行測序。將這 9 個(gè)樣本測序到平均 400 倍覆蓋深度的濕工作臺成本為 12145 美元(每個(gè)樣本 1349 美元)。文庫制備占成本的 18%(每個(gè)樣本 241 美元),基于捕獲的選擇占成本的 18%(每個(gè)樣本 244 美元),測序占成本的 64%(每個(gè)樣本 864 美元)。此外,生物信息學(xué)處理和商業(yè)注釋和數(shù)據(jù)庫軟件的使用成本為每個(gè)樣本 200 美元,平均超過我們每年 800 個(gè)案例的樣本量。賊后,NGS 變異的 Sanger 確認(rèn)使 NGS 檢測的總成本增加了 50 美元。因此,如果需要 Sanger 確認(rèn),我們運(yùn)行包含 4800 個(gè)基因的大型種系面板的總成本為每個(gè)樣本 1599 美元。相比之下,我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。
在開發(fā) NGS 檢測時(shí)還需要考慮驗(yàn)證成本,這可能是一筆巨大的前期成本。我們的實(shí)驗(yàn)室可以使用測序儀器和一些生物信息學(xué)支持,但我們在 2012 年對遺傳病檢測的初始驗(yàn)證成本約為 250 000 至 300 000 美元。這一初始成本的很大一部分包括基礎(chǔ)設(shè)施的開發(fā),包括生物信息學(xué)基礎(chǔ)設(shè)施。由于我們的基礎(chǔ)設(shè)施已經(jīng)到位并且隨著該領(lǐng)域的進(jìn)步,后續(xù)驗(yàn)證新版本的 NGS 分析通常需要花費(fèi) 50,000 到 70,000 美元。
限制
盡管希望使用 NGS 作為檢測所有臨床相關(guān)基因變化的單一方法,但目前存在重大限制。這些限制包括突變檢測的分析敏感性、難以測序或分析的基因組區(qū)域、如何解釋新的或罕見突變的知識限制、檢測結(jié)構(gòu)基因變異和拷貝數(shù)變異的能力有限,以及基因組整合信息進(jìn)入患者的醫(yī)療護(hù)理。這些限制將在下面更詳細(xì)地討論。
分析靈敏度
NGS 對 SNV 檢測的靈敏度約為 5% 至 10%。 雖然這種敏感性對于大多數(shù)遺傳性疾病檢測來說是可以接受的(它可能無法檢測到低水平的嵌合體),但它限制了在腫瘤學(xué)中對微小殘留疾病的檢測,當(dāng)存在低腫瘤百分比時(shí),或者檢測低水平的腫瘤異質(zhì)性引起的突變。這種有限靈敏度的可能原因包括由 FFPE 組織的 C 到 T 顛換混合的 PCR 噪聲、測序錯(cuò)誤和系統(tǒng)錯(cuò)誤。 普通病理學(xué)家應(yīng)該意識到 FFPE 樣本比新鮮組織樣本具有更高的偽影;此外,小樣本(包括細(xì)胞學(xué)樣本)可能含有有限的 DNA,會影響 NGS 方法的檢測。 研究表明,系統(tǒng)錯(cuò)誤會導(dǎo)致 4% 到 6% 的錯(cuò)誤率;與直覺相反,隨著覆蓋率的增加,比率會更高。 系統(tǒng)性錯(cuò)誤可能是序列特異性錯(cuò)誤、特定讀取位置的錯(cuò)誤(例如,Illumina 測序儀的末端)或與堿基對內(nèi)容相關(guān)的錯(cuò)誤(對于 Illumina 而言,GC 豐富)。 由于 PCR 和固定都不會導(dǎo)致插入/缺失(indels),因此在重復(fù)區(qū)域之外,檢測小 indels 的靈敏度高于 SNV。
提高靈敏度的主要方法有兩種;然而,這兩種方法都會減少可用讀取的數(shù)量,因此會增加測序成本以獲得可比較的覆蓋率。這些方法目前尚未廣泛應(yīng)用于臨床。先進(jìn)種方法是使用重疊的配對末端讀數(shù)。此方法僅適用于配對末端重疊的區(qū)域,因此 DNA 插入片段大小必須與讀取數(shù)相同或小于讀取數(shù)。 這種技術(shù)非常適合基于擴(kuò)增子的測序,其中可以嚴(yán)格控制 DNA 插入片段大小/擴(kuò)增子大小。 在這種情況下,DNA 插入片段將由兩個(gè)配對末端讀數(shù)(即正向讀數(shù)和反向讀數(shù))有效測序。這 2 個(gè)讀取的序列應(yīng)該匹配,并且在兩個(gè)讀取中不匹配的任何堿基對都將被丟棄。
第二種技術(shù)是使用隨機(jī)核苷酸標(biāo)簽,稱為少有標(biāo)識符(UID) 或引物 ID,因?yàn)樗鼈兺ǔ1徽系?PCR 引物中。該方法適用于序列捕獲和基于擴(kuò)增子的 DNA 選擇技術(shù)。在這種方法中,隨機(jī)核苷酸標(biāo)簽被添加到 DNA 片段中,如果 DNA 被剪切,或者在基于擴(kuò)增子的方法的先進(jìn)輪或第二輪 PCR 期間摻入,則分配隨機(jī)核苷酸標(biāo)簽。重要的是,這些步驟發(fā)生在擴(kuò)增之前,并導(dǎo)致在一端或兩端具有隨機(jī)且獨(dú)特的核苷酸序列的 DNA 片段。擴(kuò)增后,將出現(xiàn)多個(gè)相同的模板分子并進(jìn)行測序(圖 4, A 到 D); 因此,在分析過程中必須保留重復(fù)讀數(shù)。 映射到相同位置并具有相同 UID 的所有讀數(shù)都被視為 UID 家族的一部分,并將作為一個(gè)組進(jìn)行分析。目標(biāo)區(qū)域應(yīng)由許多不同的 UID 系列覆蓋。如果該 UID 家族的大多數(shù)(例如,>95%)中存在突變,則認(rèn)為該突變存在并被認(rèn)為是 1 讀。 對所有其他 UID 系列重復(fù)此過程。
圖 4:A,在擴(kuò)增之前,將隨機(jī)標(biāo)簽(短條)添加到 DNA 片段(黑色)中,其中一些具有突變(橙色)。B,標(biāo)簽隨機(jī)附著在 DNA 片段上。C,在擴(kuò)增過程中,一些拷貝會出現(xiàn)錯(cuò)誤(紅色)。所有片段都將被測序。只有在具有相同 ID 標(biāo)簽的所有測序讀數(shù)的大部分(例如,95%)中檢測到的突變才會被鑒定為真正的突變。D,在少數(shù)具有相同 ID 標(biāo)簽的讀取中存在的突變被視為錯(cuò)誤。
難以排序的區(qū)域
當(dāng)前的 NGS 平臺和標(biāo)準(zhǔn)生物信息學(xué)算法無法高效地解釋同源區(qū)域、重復(fù)區(qū)域和富含 GC 的區(qū)域。同源區(qū)域,包括假基因,是基因組中具有高度序列相似性的區(qū)域,可能與感興趣的基因僅相差幾個(gè)堿基對。從靶基因和同源區(qū)域測序的DNA片段可能在序列上非常相似以至于無法區(qū)分;并且序列的長度越短,這種情況發(fā)生的可能性就越大。這不是 NGS 獨(dú)有的問題,因?yàn)?Sanger 測序也容易受到同源區(qū)域無意測序的影響,而測試設(shè)計(jì)對于緩解該問題很重要。在 NGS 分析中,來自目標(biāo)基因和同源區(qū)域的 DNA 片段的定位質(zhì)量較差,(圖 5)。錯(cuò)誤映射可能導(dǎo)致假陽性和假陰性調(diào)用(例如,突變被遺漏和突變被錯(cuò)誤調(diào)用)。許多臨床相關(guān)基因(例如PMS2、 STRC)具有假基因,難以通過 NGS 進(jìn)行解釋,并且需要專門的靶標(biāo)富集方法,例如遠(yuǎn)程 PCR。這個(gè)問題可以通過具有更長測序讀數(shù)的新儀器來解決(參見新儀器部分);然而,在目前的實(shí)踐中,對這些領(lǐng)域的評估需要傳統(tǒng)的替代方法。
圖 5:右側(cè)顯示CYP21A2基因和設(shè)計(jì)用于序列捕獲的誘餌(表 2 )(綠色條)。左側(cè)顯示沒有誘餌的CYP21A2假基因。與真實(shí)基因相似的測序讀數(shù)被映射到假基因;由于讀數(shù)非常相似,因此無法確定實(shí)際來源。這些讀數(shù)的映射質(zhì)量得分較低,因?yàn)樽x數(shù)映射到超過 1 個(gè)位置,如褪色所示。黑色箭頭:覆蓋范圍(灰色峰),綠色圓圈:誘餌位置(如果有)。裁剪的集成基因組查看器 (IGV) 屏幕截圖(Broad Institute,Cambridge,Massachusetts)。
對于重復(fù)區(qū)域,需要重復(fù)側(cè)翼的獨(dú)特序列才能高效地映射測序讀數(shù)并確定重復(fù)的大小。大于 DNA 插入片段大小的重復(fù)區(qū)域?qū)]有側(cè)翼序列,因此無法正確定位。較小的重復(fù)大小將在至少一部分 DNA 片段上具有獨(dú)特的側(cè)翼序列,因此將進(jìn)行映射,盡管覆蓋率較低,因?yàn)槟承┳x數(shù)不會提供信息。即便如此,重復(fù)大小的枚舉需要專門的生物信息學(xué)算法,并且仍然會出現(xiàn)錯(cuò)誤,需要解釋。錯(cuò)誤的來源包括口吃(聚合酶滑動導(dǎo)致重復(fù)大小的微小變化)和 PCR 測序錯(cuò)誤。 Ion Torrent 測序儀很難使用均聚物(即多聚 A 或多聚 T),因?yàn)殡妷旱淖兓潭仍?6 到 8 個(gè)堿基對以上會失去分辨率。然而,大多數(shù)重復(fù)區(qū)域(例如脆性 X 等三核苷酸疾病)的測試?yán)^續(xù)使用傳統(tǒng)的、已建立的方法,而不是 NGS。
富含 GC 的區(qū)域似乎具有較高的背景噪聲和較低的測序質(zhì)量。特別是,Illumina 測序儀在高 GC 含量和長 G/C 均聚物的區(qū)域會出現(xiàn)替換錯(cuò)誤。已知94 個(gè)富含 GC 的區(qū)域會形成二級結(jié)構(gòu),這可能代表問題的一部分,但可能不是全部。在洗滌或異相測序后,也可能會積累 G 或 C 熒光團(tuán)。
NGS 檢測的驗(yàn)證應(yīng)包括對無??法通過 NGS 方法高效地進(jìn)行基因分型的區(qū)域進(jìn)行評估,并且至少應(yīng)記錄這些區(qū)域。101 一些地區(qū)可能會采用 Sanger 測序或長程 PCR 等替代檢測策略。
數(shù)據(jù)庫和知識的限制
盡管存在以合理成本進(jìn)行全基因組分析的技術(shù)能力,尤其是對于遺傳性疾病,但解釋所有這些數(shù)據(jù)的能力仍然落后。有助于解釋的來源包括數(shù)據(jù)庫(公共數(shù)據(jù)庫、私人數(shù)據(jù)庫或?qū)嶒?yàn)室特定數(shù)據(jù)庫)、遺傳和醫(yī)學(xué)知識、醫(yī)學(xué)文獻(xiàn)、患者信息、臨床經(jīng)驗(yàn)和團(tuán)隊(duì)討論。有不同類型的數(shù)據(jù)庫,其中包含不同數(shù)量的數(shù)據(jù)。第 1 層數(shù)據(jù)庫或臨床基因組變異庫僅包含序列/變異信息,第 2 層數(shù)據(jù)庫或基因組醫(yī)學(xué)數(shù)據(jù)庫包含帶有臨床/表型數(shù)據(jù)的序列/變異信息,大多數(shù)數(shù)據(jù)庫包含遺傳疾病或體細(xì)胞突變的數(shù)據(jù),但并非兩者都包含,ClinVar 和 dbSNP 除外(表 4)。
盡管數(shù)據(jù)庫在解釋變異方面非常有用,但當(dāng)前數(shù)據(jù)庫存在局限性,沒有數(shù)據(jù)庫是全面的或沒有錯(cuò)誤的。許多數(shù)據(jù)庫缺乏對數(shù)據(jù)庫中序列數(shù)據(jù)或其他數(shù)據(jù)質(zhì)量的高效。數(shù)據(jù)庫可能不是賊新的或可能包含有沖突的數(shù)據(jù)。醫(yī)學(xué)文獻(xiàn)和數(shù)據(jù)庫都必須謹(jǐn)慎使用,因?yàn)橐恍┳凅w已被過時(shí)的標(biāo)準(zhǔn)描述為致病性(即,在 100 個(gè)對照中不存在)。此外,關(guān)于雙基因或多基因效應(yīng)的知識有限。
內(nèi)含子或非翻譯區(qū)變異的重要性通常是未知的,罕見或新的外顯子變異也可能難以解釋。導(dǎo)致移碼或?qū)被岣臑榻K止密碼子的新的或罕見的突變(停止丟失或無義突變)如果已針對相關(guān)基因描述了該機(jī)制,則通常是致病的,但即便如此,也可能有例外。錯(cuò)義突變更難以解釋。在解釋這些案例時(shí)會考慮許多因素,包括有關(guān)特定突變的詳細(xì)信息、有關(guān)已知會導(dǎo)致疾病的突變的詳細(xì)信息、與已知突變的相似性、突變是否與另一個(gè)已知突變處于順式/反式或從頭、存在/其他個(gè)體(例如人群、正常對照或受影響和未受影響的家庭成員)中不存在,以及預(yù)測的蛋白質(zhì)效應(yīng)(在計(jì)算機(jī)模型中使用)。
結(jié)構(gòu)變異和拷貝數(shù)變異
下一代測序在檢測 SNV 和小插入/缺失 (indel) 方面表現(xiàn)相當(dāng)不錯(cuò),但在檢測結(jié)構(gòu)重排或拷貝數(shù)變異 (CNV) 方面表現(xiàn)不佳,尤其是在使用富集執(zhí)行靶向 NGS 時(shí)。此外 ,檢測結(jié)構(gòu)變異和 CNV 需要與 SNV 檢測不同的生物信息學(xué)算法。一些臨床實(shí)驗(yàn)室目前正在使用 NGS 數(shù)據(jù)來檢測 CNV,并且通常使用兩種或多種技術(shù)的組合。
有幾種技術(shù)已用于檢測 CNV,包括覆蓋深度(讀取深度)、讀取對、拆分對、基于組裝或這些技術(shù)的組合。臨床 CNV 分析通常使用兩種或多種這些技術(shù)的某種組合。 所有方法都比重復(fù)檢測缺失更好,無法檢測重復(fù)區(qū)域或難以映射區(qū)域中的 CNV,并且受到覆蓋范圍的限制(盡管覆蓋深度技術(shù)比其他方法更受覆蓋范圍的影響)技術(shù))。 假陽性是一個(gè)問題,尤其是在對大面積的外顯子組應(yīng)用 CNV 分析時(shí),據(jù)報(bào)道,假陽性的發(fā)生率為 10% 至 89%。 結(jié)合機(jī)器學(xué)習(xí)技術(shù)的賊新進(jìn)展有望減少誤報(bào)。 然而,基因組的某些區(qū)域比其他區(qū)域更容易出現(xiàn)誤報(bào)。
使用覆蓋深度或讀取深度來檢測 CNV 與統(tǒng)一測序效果很好,這是標(biāo)準(zhǔn)生物信息學(xué)工具所假設(shè)的。這些工具分析增加或減少的覆蓋率,以分別檢測重復(fù)/擴(kuò)增或刪除。然而,運(yùn)行之間、運(yùn)行內(nèi)和患者之間的覆蓋率會有所不同,尤其是在使用序列富集時(shí),并且當(dāng)測序不均勻時(shí)會檢測到虛假調(diào)用。通過序列富集,覆蓋模式趨于相似,但先進(jìn)覆蓋范圍不同,需要某種歸一化。這可能需要與對照以及樣品中的對照基因進(jìn)行比較,以標(biāo)準(zhǔn)化單個(gè)樣品的性能。讀取深度技術(shù)的優(yōu)勢在于能夠檢測大型 CNV 并預(yù)測實(shí)際拷貝數(shù);但是,此方法無法檢測斷點(diǎn)或檢測重排。
讀取對(或配對)分析將讀取對的 2 個(gè)末端的距離與平均插入大小進(jìn)行比較。讀取對分析需要配對的末端讀取,受插入大小的限制,并且只會檢測較小的 CNV。 讀取對分析的一個(gè)優(yōu)點(diǎn)是它可以檢測 CNV 和重排(易位和倒位)。 但是,它只會檢測小于平均插入大小的重復(fù)/擴(kuò)增和小于 1 kb 的缺失,并且無法正確估計(jì)拷貝數(shù)。
拆分對(或拆分讀?。┓治鰧iT查看配對讀取,其中配對讀取中的一個(gè)無法映射或僅部分映射。拆分對分析還需要配對末端讀取,只會檢測較小的 CNV,并且在低復(fù)雜性區(qū)域表現(xiàn)不佳。 但是,它可以正確定位斷點(diǎn)并檢測重排。
賊后,基于組裝的分析使用讀取的從頭對齊。 從頭比對(表 2)將各個(gè)讀數(shù)相互匹配,而不是與參考基因組匹配。因?yàn)樗怯?jì)算密集型的,所以這種技術(shù)更適用于小型基因組,例如細(xì)菌,但可以用于臨床。
融入患者的醫(yī)療保健
人們一直非常關(guān)注將基因組學(xué)有意義地整合到患者護(hù)理中。 需要解決許多實(shí)際問題才能使這種情況廣泛發(fā)生。問題包括使報(bào)告易于理解、將基因組結(jié)果與電子病歷 (EMR) 連接、幫助對變異進(jìn)行分類的生物信息學(xué)工具、處理偶然發(fā)現(xiàn)以及是否以及如何提供基因重新評估。 其他問題包括數(shù)據(jù)存儲,包括存儲哪些數(shù)據(jù)(FASTQ、BAM、變體調(diào)用文件)、存儲數(shù)據(jù)多長時(shí)間以及如何安全地存儲大型數(shù)據(jù)集。NGS 的 CAP 清單提供了指導(dǎo),說明某些文件必須存儲至少 2 年;這些文件應(yīng)允許以允許生成原始數(shù)據(jù)的相同方式重新審查案件。 數(shù)據(jù)存儲和處理可以在本地服務(wù)器上執(zhí)行,也可以通過第三方執(zhí)行。云公司現(xiàn)在提供安全的基于云的服務(wù)和存儲;但是,醫(yī)療機(jī)構(gòu)有責(zé)任確保服務(wù)滿足所有 HIPAA(健康保險(xiǎn)流通與責(zé)任法案)對數(shù)據(jù)傳輸和存儲的要求。
將大規(guī)?;蚪M數(shù)據(jù)廣泛有意義地整合到醫(yī)療記錄中,尤其是對于小型機(jī)構(gòu)而言,仍然是一個(gè)挑戰(zhàn)。當(dāng)前的實(shí)驗(yàn)室信息系統(tǒng)和 EMR 可以處理具有相關(guān)解釋或正常范圍的離散數(shù)據(jù)點(diǎn),并且可以處理解釋性文本報(bào)告,但它們無法處理由全基因組、全外顯子組和大型靶向面板 NGS 生成的復(fù)雜基因組數(shù)據(jù)。盡管實(shí)驗(yàn)室信息和 EMR 系統(tǒng)可能會發(fā)展,但在當(dāng)前和可預(yù)見的未來,輔助系統(tǒng)對于將大量基因組數(shù)據(jù)整合到醫(yī)療記錄中是必要的。 然而,這些輔助系統(tǒng)的實(shí)施需要信息技術(shù)人員的大量時(shí)間和資源,此外還需要臨床醫(yī)生、實(shí)驗(yàn)室人員、藥劑師和/或病理學(xué)家,具體取決于應(yīng)用。成功實(shí)施 EMR 與輔助基因組系統(tǒng)集成的許多地方是具有基因組或信息技術(shù)專業(yè)知識的學(xué)術(shù)中心,并且已經(jīng)實(shí)施了針對特定基因組信息子集(例如藥物基因組學(xué)變異)的系統(tǒng),提供全基因組或全基因組的機(jī)構(gòu)較少。外顯子組測試。幾家新公司提供這些輔助系統(tǒng)。一些系統(tǒng)組織、注釋、跟蹤變體并生成報(bào)告。這些報(bào)告通常是 pdf 或文本報(bào)告,并且沒有傳輸?shù)?EMR 的離散字段。甚至賊近,一些公司提供了臨床決策支持工具。
新儀器
目前有兩種新的測序儀器(有時(shí)稱為第三代測序儀)可供研究使用,它們提供更長的測序讀數(shù)并能夠讀取單個(gè)分子的序列:PacBio SMRT(單分子實(shí)時(shí))(Menlo Park,加利福尼亞)和牛津納米孔(英國牛津)。這些儀器使用不同的基礎(chǔ)化學(xué)。 PacBio SMRT 使用多個(gè)孔,每個(gè)孔的底部都有一個(gè) DNA 聚合酶,帶有 1 個(gè)長 DNA 片段。每個(gè)熒光標(biāo)記的核苷酸(A、C、G、T)在摻入時(shí)都會發(fā)出不同的熒光信號。照明和檢測發(fā)生在孔的底部,檢測足夠靈敏,可以檢測到當(dāng)堿基對添加到 DNA 鏈時(shí)釋放的單個(gè)熒光信號。牛津納米孔使用插入膜中的蛋白質(zhì)孔。施加電流并流過膜兩側(cè)之間的孔。當(dāng)結(jié)構(gòu)(DNA 或 RNA 鏈)通過孔時(shí),電流變化和變化程度與單個(gè)堿基(A、C、G 或 T)相關(guān),也與 C 的甲基化狀態(tài)相關(guān);因此,可以檢測到甲基化和羥甲基化。 PacBio SMRT 還可以通過分析 DNA 聚合酶動力學(xué)的變化(摻入一個(gè)堿基的時(shí)間和摻入 2 個(gè)堿基之間的時(shí)間)來推斷甲基化狀態(tài)。
兩種儀器都不需要放大步驟,因此應(yīng)該減少背景噪音。兩種儀器都可以執(zhí)行長讀?。≒acBio SMRT 為 14 000–40 000,Nanopore 為 8000–100 000),這可以克服假基因和重復(fù)區(qū)域的問題,并有助于識別 RNA 異構(gòu)體;但是,兩者都有很高的錯(cuò)誤率。 PacBio 上的錯(cuò)誤是隨機(jī)的,因此可以通過對相同分子的重復(fù)測序和使用一致結(jié)果來克服。納米孔上的錯(cuò)誤是有偏差的(意味著它們發(fā)生在相同的區(qū)域),因此無法通過重復(fù)測序來克服。這些儀器顯示出前景并可能解決許多臨床相關(guān)區(qū)域的問題,例如三核苷酸重復(fù)區(qū)、HLA 和同源區(qū)。 然而,這些測序儀在臨床領(lǐng)域的采用有限,這可能是由于它們的價(jià)格較高和吞吐量較低,也可能是由于臨床驗(yàn)證具有高固有錯(cuò)誤率的儀器所面臨的挑戰(zhàn)。
醫(yī)院下一代測序技術(shù)要點(diǎn)總結(jié)
下一代測序正在臨床實(shí)驗(yàn)室中實(shí)施,隨著技術(shù)、生物信息學(xué)和資源的發(fā)展以解決限制、提高結(jié)果質(zhì)量和增加臨床有用應(yīng)用的數(shù)量,其使用只會增加。臨床 NGS 已擴(kuò)展到檢測 SNV 以及結(jié)構(gòu)重排和 CNV,監(jiān)測循環(huán)腫瘤 DNA,并分析以前標(biāo)準(zhǔn)生物信息學(xué)算法難以管理的基因組區(qū)域。將繼續(xù)進(jìn)行進(jìn)一步的改進(jìn);然而,臨床實(shí)驗(yàn)室面臨的挑戰(zhàn)是確保測試具有臨床相關(guān)性、成本效益,并且可以整合到臨床護(hù)理中。
其他參考閱讀材料:Arch Pathol Lab Med (2017) 141 (11): 1544–1557。https://doi.org/10.5858/arpa.2016-0501-RA
(責(zé)任編輯:佳學(xué)基因)