【佳學(xué)基因檢測】基因數(shù)據(jù)庫進(jìn)行了再次更新,收集基因序列數(shù)據(jù)超過31億
GenBank 252.0版(2022年10月17日)現(xiàn)已在NCBI FTP網(wǎng)站上發(fā)布。這個版本有20.35萬億個堿基和31億個記錄。新發(fā)布的版本有240539282條傳統(tǒng)記錄,其中包含1562963366851個堿基對的序列數(shù)據(jù)。還有2167900306條WGS記錄,包含1823196008828個堿基對的序列數(shù)據(jù),57402800條批量定向TSA記錄,包含511476787957個堿基,115123306條批量定向TLS記錄,包括43860512749個堿基。
發(fā)布之間的增長
在GenBank發(fā)布251.0和252.0的截止日期之間的63天內(nèi),GenBank的傳統(tǒng)部分增加了70162662354個堿基對和623496個序列記錄。在同一期間,更新了25466項記錄。平均每天增加和/或更新10301條傳統(tǒng)記錄。
在版本251.0和252.0之間,GenBank的WGS部分增加了720151132199個堿基對和143800629個序列記錄。GenBank的TSA成分增加了13975407571個堿基對和13823250個序列記錄。GenBank的TLS成分增加了8232104個堿基對和19779個序列記錄。
此版本的序列數(shù)據(jù)文件總數(shù)增加了216個。劃分如下:
BCT:37個新文件,現(xiàn)在總共857個
CON:刪除了28個文件,現(xiàn)在總共231個
ENV:3個新文件,現(xiàn)在總共75個
INV:99個新文件,現(xiàn)在總共965個
PLN:61個新文件,現(xiàn)在總共1013個
VRL:39個新文件,現(xiàn)在總共813個
VRT:5個新文件,現(xiàn)在總共320個
序列數(shù)據(jù)文件注釋
隨著2022年4月GenBank發(fā)布249.0版本,我們注意到CON部門的36個序列平面文件數(shù)量異常大。增加的原因是將“外部注釋”錯誤地納入了ASN。一組CON記錄中的174個WGS相關(guān)軟骨支架的1個版本。
GenBank平面文件表示中這174條記錄的呈現(xiàn)和內(nèi)容沒有受到此錯誤的負(fù)面影響。但是,使用ASN的客戶。1表示GenBank記錄時,其大小會急劇增加。
在2022年10月的GenBank版本252.0中糾正了這個問題,CON部門文件的總數(shù)減少了。對于由此造成的任何困難,深表歉意。
其他信息
出于下載目的,請記住,未壓縮的GenBank版本252.0序列數(shù)據(jù)平面文件大約需要2815 GB。ASN.1數(shù)據(jù)文件大約需要1432 GB。
有關(guān)GenBank 252.0版的更多信息,請參閱發(fā)行說明以及GenBank和ASN中的README文件。FTP上的ASN.1 (ncbi-asn1) 目錄。
(責(zé)任編輯:佳學(xué)基因)