【知识讲解】NCBI基因命名和分类解析--附常见序列编码汇总

发布日期:2024-11-17 13:37    点击次数:55


【知识讲解】NCBI基因命名和分类解析--附常见序列编码汇总

NCBI的参考序列(RefSeq)计划,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。

RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

而genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。

那么如何在BLAST结果和在Entrez搜索结果里

怎样快速地区分出哪些是RefSeq?

1.ACCESSION,形式为**_#####,其中**为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;ACCESSION后面又会加版本号,以**_####.#形式表示,最后的尾数不同表示序列信息有所修改,数字越大版本越新。

2.GI,是GenBank Id的缩写,tp钱包官网下载是序列的ID号,为唯一标识符。这是Genbank的收录号,也是查询号。

4557284 就是该序列的gi号,ref :标示该序列是参考序列。NM_000646.1 该序列的Accession号和版本号。

一般来说,mRNA、蛋白和基因组序列是我们常用到的序列。找标准序列时,mRNA就采用NM_编码的,蛋白就查找NP_编码,基因组用NC_或者AC_编码的。下面是常见的一些编码的汇总。

1、“NM_”、“XM_”命名的记录代表的是编码基因,“NM_”对应“NP_”,“XM_”对应“XP_”;

2、“XM_”,“XR_”通过计算机算法预测得到,而“NM_”和“NR_”都是有一定的实验数据支撑,但并不是说“XM_”和“XR_”就不存在于细胞中。

NCBI RefSeq一直在更新,这些命名的记录代表的是一种状态,经常会碰到某个“XM_”记录被“NM_”代替,或者“NM_”记录由于缺少证据而从NCBI RefSeq删除。




Powered by tp钱包下载 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2022 tp钱包下载 版权所有