NCBI数据模型.docx
- 文档编号:11065935
- 上传时间:2023-02-24
- 格式:DOCX
- 页数:20
- 大小:29.99KB
NCBI数据模型.docx
《NCBI数据模型.docx》由会员分享,可在线阅读,更多相关《NCBI数据模型.docx(20页珍藏版)》请在冰豆网上搜索。
NCBI数据模型
NCBI数据模型
在不同的数据库中作者的姓名是有不同的格式的:
只有姓、姓和首字母、姓-逗号-首字母、姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,III)。
一些文献数据库(如MEDLINE)可能仅用一个固定的数字代表作者。
尽管这只是不便于读者阅读,但这对数据库系统产生了严重的问题,就象Entrez那样,只能提供按作者姓搜索的简单功能。
由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形式,另一个是包含姓、名和其它等的结构域。
当数据直接被送到NCBI或作者姓名有固定格式的其它数据库(如MEDLINE)时使用结构形式。
当该形式不能破译是则仍然被看成为字符串形式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。
即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只给名和中间名。
这时要强调两点:
第一点,NCBI数据格式是为了适合于我们直接阅读以及能和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意义。
一般说来,NCBI尽量使数据形式满足统一格式,但可能也会使其它的性能下降。
作者的社会关系(如作者的工作地点等)就更加复杂了。
至于作者姓名对于支持结构形式和字符串形式也还有一些问题。
然而,即使对那些有统一格式作者姓名的文献来源,也不能将社会关系分解成结构形式。
而且,也有很多作者是属于相同的机构或一个作者参与了几个机构。
NCBI数据模型支持以上情况。
尽管在写本文时,MEDLINE或GenBank只支持前一种格式,而两种格式都出现在出版物上。
文章
最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文献。
然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手稿。
文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等。
那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的。
NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同时配合相同的期刊名、年份、文章的首页以及文章作者的姓。
其他的信息(例如文章标题、页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。
作为出处的数据模型要容许最小信息集能作用,和MEDLINE比对后,被从MEDLINE中得到的完整的域所替代,从而满足科学研究精确的需要。
专利权
随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。
NCBI支持由美国专利局合作的完整的专利引用顺序。
实际上,专利说明书倾向于限制科学的作用,理由如下:
专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述生物的过程。
这是为在律师办公室的情况,不是为做研究的科学家。
所以存在的说明书只是解释专利中的一些方面,而不是文章的核心。
只要不是基因的专利,组织信息、生物特征位点等等根本不可能出现。
不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式(对科学家)出现在公共数据库中。
从NCBI的观点,GenBank列出专利说明中的序列的目的是能复现序列本身(通过相似性比较),用以定位和某序列相关的专利。
这种情况下要实现合法的确定,我们必须检查专利的全文。
要评价生物序列,人们必须定位专利中没有包含的信息。
这里的联系是序列和专利号之间的联系。
其它在专利定位中使用的域是诸如专利名称和发明者的姓名等。
引用电子数据
和GenBank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但又和一般期刊不完全相同的出版物。
在一般情况下,文章的出版需要经过相当长的时间,而且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。
提交的数据由于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出的名单可能不一致。
大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完全是,特别是大序列中心。
最终NCBI提出了也引用修改的记录,在记录的修改栏里做简单的注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。
MEDLINE和PubMedUIDs
一旦文章的出处和MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是MEDLINE唯一辨识器(MUID),这是一个简单的整数。
NCBI提供了许多服务去使用MUID来恢复出处和从MUID获得摘要、将数据和文章联系起来或者提供WWW的网上连接。
最近根据和MEDLINE以及许多出版者的协定,NCBI提出了PubMed。
和直接由出版者提供类似,PubMed包含了所有的MEDLINE,而且PubMed还包含了最近出版的文章,还包括了一些由于它们的主题原因将永远不能在MEDLINE中出现的文章。
这时,NCBI提出了一种新的文章辨识器叫PubMed辨识器(PMID)。
出现在MEDLINE中的文章将同时有PMID和MUID。
只出现在PubMed中的文章则只有PMID。
PMID和MUID提供了相同的目的是提供一种简单可靠的和出处的连接或一种方法建立网上热连接。
NCBI现在正将所有的服务转向使用PMID。
NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成,包括可靠的辨识器(PMID或MUID)和出处本身。
出处格式的存在使得不用从数据库中特别恢复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。
Seq-IdS:
序列标识
NCBI数据模型定义了一类对象,被称为序列辨识器(SeqId)。
需要这类对象是因为NCBI合成了许多用不同方法命名的数据源并且这些名字具有不同的含义。
例如一个简单的情况:
PIR,SWISS-PROT和核甘酸序列数据库都使用有类似格式的序列号,光说“A10234”是不能唯一地从所有这些数据库集合中找到序列记录的。
我们必须区别从SWISS-PORT和从PIR中的A10234。
(DDBJ/EMBL/GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从GenBank中的A12345是相同的。
)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。
所以PDB的SeqId包含了分子名称和链状ID去标识一个唯一的序列。
下面一部分就叙述通常使用的几种SeqId的格式以及使用。
LOCUS名称
LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBLE的ID行)是GenBank中最初的辨识器。
就象基因LOCUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。
由于LOCUS行是有固定的格式,LOCUS的名称限制在少于或等于10个数字或大写字母。
在GenBank中,名字的前三个字母是组织码,剩下的字母是基因码(如:
HUMHBB代表人体b-球蛋白区域)。
然而,当该区域的功能和原先设想的功能不同时,LOCUS中的基因码会发生变化。
这种不稳定性显然是复现中的一个问题。
另一个问题是GenBank中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。
基于以上几点使得LOCUS名称在GenBank中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。
序列号
由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。
开始时它不具有生物意义是为了保证其相对的稳定性。
它是由一个大写字母和五个数字组成。
(新的序列号是由两个大写字母和六个数字组成。
)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。
序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。
例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。
这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。
如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上。
序列号出现在GenBank的ACCESSION行上。
该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。
第二级序列号是为了给该记录提供历史信息。
例如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列号,U00001是二级序列号。
在实际的标准中U00001记录将从GenBank中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要复现的记录。
这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。
(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。
但不管怎样,序列号仍然是DDBJ/EMBL/GenBank记录恢复中最可控最稳定的方法。
Gi号
1992年NCBI开始对所有Entrez中的序列使用基因信息号(gi),其中包含从DDBJ/EMBL/GenBank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWISS-PROT、PIR、PRE、PDB、专利以及其它得到的蛋白质序列等。
Gi是由原数据库提供的另外的SeqId。
尽管由于原数据库的不同SeqId的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的。
在形式上,它只是简单的整数(所以有时被称为GI号)。
它只是一些特定序列的辨识器。
假定一个序列加入GenBank,给定序列号U00001。
当该序列在NCBI所内部处理时,它加入所谓的ID数据库。
ID确认以前从未见过U00001,就给它一个gi号54。
当提交器通过改变出处修改记录时,U00001又加入ID。
ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录gi号54;如果不相同,即使只有一对碱基不同,则给新gi号88。
然而因为原数据库的意义,新序列仍保持序列号U00001。
这时ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。
ID也加入历史gi88指出它替代了gi54。
Gi号有三种主要功能:
1.提供了从多源数据库序列间的简单标志;
2.提供了指示特别序列的标志。
任何分析gi54存储分析的人可以肯定只要U00001有gi54,它就是有效的;
3.它是稳定且可恢复的。
NCBI保持每个gi号的最新版本。
由于历史在记录中存在,任何发现gi54不再是GenBank的一部分的人仍然可以通过NCBI的ID复现该记录,通过查看历史可以看到它被gi88替代。
检查gi54和gi88可以确定它们的关系,研究人员可以映射以前的分析到gi88或者重新分析数据。
由于gi54在ID中总是存在的,这使得我们可以随时分析时局而不仅限于GenBank发行时间。
基于上述原因,从计算Entrez序列邻居到确定新序列的处理或BLAST数据库的产生所有NCBI的内部处理序列都是基于gi号。
NID/PIDs
GenBank中的NID和PID指示了核酸的gi号和记录的蛋白质序列。
补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的gi号去追踪序列。
正象前面提到的,使用gi号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如,5’端)。
在写本文时,又出现了一种新的SeqId(序列版本,见下文),它是被用于选择的序列辨识器。
一旦这种转变完成,可能NID和PID号将不再出现在数据格式中,尽管使用gi号的分析将继续有效。
而且,初始数据将出现在NCBI准备与GenBank数据平行的ASN.1文件中。
序列版本组合辨识器
最近,国际核酸序列数据库联合会(DDBJ,EMBL和GenBank)同意引入一种更好的辨识器。
这种辨识器是组合了序列(标明特定的序列记录)和版本号(根据序列本身变化)。
这种SeqId被期望成为理想的引用序列的方法。
使用者将仍能够仅仅基于序列号就能复现记录而不需要特殊的版本号。
这种情况下,将得到该记录的最新版本,这也是Entrez和其它复现程序现在所作的工作。
分析数据库数据的科学家(例如将所有脱水酒精序列用一种特定分类方法中分离)和希望他们的结论保持有效的科学家希望能参考序列号和版本号。
某序列的子序列(例如在研究基因的规则的5’延长端)被调整后,将导致版本号的增加。
由于同时引用序列号和版本号,使得复现出同一记录,原始分析将保持有效。
同时引用序列号和版本号将使马虎的使用者认识到在分析作完后序列可能已经发生了变化。
而且根据版本号可以轻易的知道一个序列被修改的次数。
由于序列版本辨识器的优先权,现已存在的NIDs和PIDs(简单使用gi号)将被去除。
蛋白质序列的序列号
联合会也同意给蛋白质序列记录分配序列版本号。
以前,除了使用gi号,很难可靠地引用给定编码区翻译后的产品。
这限制了BLAST结果的使用。
例如,这些序列将和提交给蛋白质数据库的蛋白质序列有相同的状态,并且它们有和对应核酸序列优先的连接权。
一般的SeqId
一般的SeqId是指被基因中心和其他组织当作标识序列的一种辩识基因所使用的。
其中一些序列可能永远也不会出现在公共数据库中,或者是最终被提交的初级数据。
例如,在Entrez基因分离的人体染色体的记录包含了除序列组成的多种物理和基因映射关系。
物理映射是由不同组织提供的,是用一般的SeqId标识组织的。
局部的SeqId
局部的序列辨识器最突出地被使用在数据提交的工具Sequin中(见第14章)。
每个序列仅当完整的被提交公共数据库处理后,才能最终得到一个序列号和一个gi号。
提交过程中,Sequin分配一个局部辨识器给每个序列。
就象许多NCBI提供的软件工具一样要求序列辨识器,局部的ID允许使用这些工具而不需要先提交到公共数据库。
BIOSEQ:
生物序列
Bioseq即生物序列是NCBI数据模型的中心元素。
它包括一个简单的连续的核酸分子或蛋白质分子,它定义了一个线性完整的协调系统。
生物序列必须至少有一个序列辨识器(SeqId)。
它包含了分子(DNA,RNA和蛋白质)的物理类型的信息,也有一些注释信息(例如指示特定生物序列的特定区域的生物特征)。
它还有描述信息(例如该分子是从某个组织中获得的,这描述了整个生物序列)。
然而,生物序列不需要分子的完整序列。
它可能是一个分开的序列,例如外显子序列,而不是所有内含子序列。
或者它可能是只有一点标识的基因或物理映射。
序列是相同的
即使实际序列没有完全确定,所有生物序列有一个整数值的完整协调系统。
所以对物理映射或对高分割基因的外显子来说,标识和外显子之间的距离只有从一群胶体中得到。
所以当一个完整的序列染色体的协调关系已经精确了解后,那些基因和物理映射是最佳的推测,即和实际关系的错误概率最小。
不管怎样,任何生物信息都能被注释以相同的信息。
例如一个基因特征可以被放在DNA序列的一个区域内,或者是物理映射的某个位置。
该映射和序列可以根据共同的基因特征归为一类。
这大大简化了能展示这些表面上不相关的数据的软件的编写任务。
序列是不相同的
尽管相同的协调系统有很多优点,不同的生物序列类所代表的方式不同。
最一般的类(见图6.2)简单介绍如下。
实际生物序列
在实际生物序列中我们知道分子类型,可能是它的长度和拓扑结构(例如线性,环状),但不是实际的序列。
它可以代表基因分子(只有外显子序列已经确定)的内含子。
长度可能只能从一群胶体的数量得到。
原始生物序列
这是大多数人想的序列,一串简单连续的碱基和残基是已知的。
因此长度是已知的,序列中它应该和碱基或残基的数量配合。
离散的生物序列
离散的生物序列不包含原始生物序列,但其他生物序列的辨识器。
这可以被用于代表只有外显子已知的基因序列。
离散生物序列中的部分将是代表外显子的原生物序列和代表内含子的实生物序列。
离散生物序列也被用于NCBI来代表整个染色体。
这就是Entrez基因分离的方法(见图6.3)。
这时,所有的部分都可能是原生物序列(许多情况的记录都已经存在于GenBank中)。
可能在连接部分有重叠。
Delta生物序列
Delta生物序列是用于代表从不同的基因序列中心得到的未完高产量基因序列(HTGS)。
即使有未知的生物序列子区域存在,使用Delta序列而不是离散序列是指对整个序列只需一个序列辨识器。
也就是说即使数据库中存在早期的版本,Delta序列保持着相同的序列号(见本章末尾)。
映射生物序列
映射生物序列用于代表遗传和物理的映射关系,和实生物序列类似都包含有分子结构可能是拓扑结构以及真实分子长度粗糙估计的长度信息。
这个信息只提供协调系统以每个生物序列的属性。
对一个遗传映射给定协调系统我们可以根据遗传证据估计基因的位置。
和原生物序列的数据是碱基和残基类似,作用基因特征表是映射生物序列的主要数据。
BIOSEQSETS:
序列集合
生物序列经常储存在相关序列的上下文中。
例如核酸序列和它编码的蛋白质序列自然属于一类。
NCBI数据模型为这个目的提供了序列集合。
序列集合有一系列描述。
将生物序列进行压缩时,需要对集合中每个序列进行描述。
将出版物和生物原信息结合在一起是比较方便的安排,这些生物原信息是期望对所有序列的但经常在序列集合中出现相同。
例如,DNA和蛋白质序列都是从同一组织中获得的,所以该描述信息应该用于该集合,同样也适用于出版物。
最一般的序列集合如下。
核酸--蛋白质集合
核酸-蛋白质集合包含核酸和一个或多个蛋白质,它是最经常由SequIn数据提交产生的集合。
序列的组成是通过描述从核酸到蛋白质的翻译过程的编码区(CDS)的特征来联系的。
传统的核酸和蛋白质数据库中这些记录可能用交叉参考来指明这种联系。
核酸-蛋白质集合将二者放在一起使得这种联系更加清楚。
它也允许用于所有序列的描述信息的同时存在(例如组织或出处)。
数量、种类的研究
序列提交的一个主要的类是以人口或种类研究的形式出现。
这些研究包括同种类(数量研究)或不同种类(种类研究)一定数量的个体相同基因的比对。
序列比对可能从以下的序列比对中得到。
若基因编码了某个蛋白质,则数量或种类的序列集合可能也是一个核酸-蛋白质集合。
其它的生物序列集合
Seg集合包含了一个离散的生物序列和一个部分生物集合,反过来部分生物集合有包含了被离散生物序列引用的原生物序列(这可能组成了核酸-蛋白质集合的核酸部分)。
Equiv生物序列集合被用于Entrez基因分离,以维持生物序列的多平衡。
例如,人体染色体有一个或多个不同种类的遗传、物理映射。
不同生物序列之间的比对是基于对一般人员的注释(见第12章和图12.4)。
序列的注释属性
序列注释是对序列注释的一个自包含包裹,或是指向特定序列的特定位置的信息。
它可能包含一个特征表,一类序列比对或一类序列的图表。
多序列注释可以放在生物序列或生物序列集合中。
每个生物注释可以有特殊的属性。
例如PowerBLAST(ZhangandMadden,1997)创造了包含序列比对的序列注释,每个序列注释是基于使用的BLAST程序(例如BLASTN,BLASTX)命名。
个体块的比对在Enrez和Sequin中可以看到。
由于序列注释的组成有对序列的特定参考,因此序列注释可以单独存在或和其他科学家互换;它不需要存在于具体的序列记录上。
(另一方面,描述的范围依靠于包裹的位置。
)因此关于生物序列的信息可以创造,交换以及独立于生物序列的比较。
这是序列注释和NCBI数据模型的一个重要特性。
序列特征
序列特征(Seq-feat)是一块通过一或两个序列位置(Seq-locs)清楚附在生物序列区域的结构数据。
序列数据自己本身是可以包含一般的信息。
例如,它有能指示一些特征的标志。
这些特征包括是否是部分(超过了生物序列末尾)、是否有一个生物的例外(解释为什么基因序列的密码子没有按预期的翻译成氨基酸的编辑RNA)、是否该特征是由实验决定的(例如,信使RNA隔离于假定的编码区)。
一个特征经常有位置。
Seq-loc指示了作用蛋白质序列的位置。
编码区经常以ATG开始,以终止子结束。
如果分布位点是在一个基因序列上,而且信使RNA有连接出现,则位点可以有多于一个中间物。
(为防止其它连接产生了分离的编码区特征,对每个离散的分子种类有一个多中介Seq-loc)
特征可以是有选择的产生作用。
对一个编码区Seq-loc的产物指向相应的蛋白质序列。
这是使数据模型能单独地保持核酸和蛋白质序列的连接,而且有每个序列对分子适当的注释。
基因序列中信使RNA的特征可能含有反映后翻译RNA的信使RNA序列。
该特征包含有唯一对应该特征的信息。
例如CDS特征有遗传编码区和阅读框架,同时信使RNA特征有翻译氨基酸的信息。
折衷设计完全调整了特征要求的组成。
如果一个特殊的特征需要一个特定的域而其它域不会受到影响。
一种新的特征类型即使一个复杂的特征类型可以被加入,其它特征不受影响。
用于显示特征在序列上位置的软件只需要考虑对通用特征的位置。
尽管DDBJ/EMBL/GenBank特征表允许很多特征(见第2章),NCBI数据模型对待一些特殊特征和其他特征相同。
特别一些特征直接对分子生物学的中心原理建模,可以被用于连接记录和用计算机揭示新信息。
这些特征将在下面进行讨论。
基因
一个基因有自己的特征。
过去它仅仅是其他特征的修饰。
基因的特征指明了含有可测表示的基因的位置即核酸序列可遗传区域。
这中表示可能能从许多基因的组成(包括编码区,推动子,增强子和终止子等)里获得。
基因的特征是指大约能覆盖被大家所认为是基因的核酸区。
当然这种模糊的概念有简单性,它对高层次基因视角(如遗传映射)适合的相当好。
在大规模的基因测序中,当生物学家只想知道“xyz”基因而不是整个染色体时,模糊概念很有实际用途。
基因特征对基因数据库(能得到基因更详细的信息)可能也有交叉参考作用。
RNA
RNA特征可以描述编码中介(如信使RNA)和结构RNA(如tRNA,rRNA)。
信使RNA的位置和响应编码区(CDS)完全确定了5’和3’未翻译区,外显子和内含子。
编码区(CDS)
NCBI数据模型的编码区(CDS)特征可以被想成通过遗传编码从核酸到蛋白质翻译的命令。
(见图6.4)编码区象是连接两种序列的联系。
几种情况可能对经典的基因对蛋白质的共线性产生例外。
例如翻译故障(核糖体的错位)会导致特征位置Seq-loc的重叠。
除非清楚给定了编码区特征,否则编码区被认为是普遍的。
在序列中当遗传编码没有特定位置跟随时,如第一位置上是变起始子,制止子tRNA饶过终止子,或加入selenocysteine时,编码区特征容许这些非正常情况被指出。
蛋白质
蛋白质特征以蛋白质或蛋白质分解产物命名。
一个简单的蛋白质序列可能有许多蛋白质特征。
可能有一种特征描述原肽,翻译的最初产物。
(这个特征的名字是用于产生蛋白质的CDS区域的描述。
)可能有一个短一些的蛋白质特征用于描述成熟的肽,或者为防止病毒性的多蛋白质,采用几个成熟肽特征。
通过膜组成蛋白质的含有信号的肽可能被指出。
其他
几种其他的特征不常用。
区域特征提供了一种简单的方法命名染色体区域(例如“主要组织互容局面”)或多肽的域。
特征纽带指示了蛋白质两个残基(如二硫键)之间的联系。
位置特征指示了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NCBI 数据模型