基因名不是一成不变的。随着我们对基因更加深入地了解,基因名也会更新,或多或少都寻在一些别名,我们通过NCBI-gene检索时就会发现所有基因都会有一个Official gene symbol,同时也会有一些Alias(also known as)。文献里边的名字一般都是滞后的,这就是为什么当遇见报告里边只给一列gene symobl的时候,你文献里边的基因可能在你数据里边就查不到。因此,我一直强调大家进行数据分析的时候尽量使用gene ID和Ensembl ID,这些比较稳定。
如下图以大家熟知的GAPDH为例:
再举个例子SEPTIN2,这个基因上一版本的缩写是SEPT2。看过我B站相关讲解的同学应该记得,当用Excel处理数据时这一类基因名称这是一个很大的坑,会自动被Excel贴心的改成日期型单元格,呈现出来的就是2-Sep(9月2日),还是不可逆的。类似的基因还有MARCHF1-MARCHF11(MARCH1–MARCH11)、SEPTIN1- SEPTIN14(SEPT1–SEPT14)等。
再有大家所熟知的认为很正常的基因名字,比如 PD1 和 PDL1,搜索一下就会发现,人家的大名叫做PDCD1和CD274。
有的约定俗成的东西会在某些领域中根深蒂固,形成并不规范的名词,这些名词就和各个地方的方言一样,存在的那么合理,但又造成了很多不便。不规范的命名层出不穷,惨不忍睹,连基因命名事务“管理官”—— 国际人类基因组组织基因命名委员会(Human Genome Organization Gene Nomenclature Committee, H(UGO)GNC) 都看不下去了。2021年10月7日,HGNC在 The American Journal of Human Genetics杂志上发表了评论文章 The risks of using unapproved gene symbols,以列举具体实例的方式严肃地指出,研究人员若不按照规定在科学论文中使用HGNC批准的基因符号,将为科学研究造成无穷无尽的困惑和混乱。
随着生物医学研究论文规范性的提高,在发表文章或毕业论文中越来越强调基因名称书写的规范,其目的是为了使读者很容易确定作者所研究的基因以及这个名称代表是基因还是其相应的蛋白质。并且减少同行评审员和已发表文章的广大受众的这种潜在混淆来源,在整个稿件中以一致的方式使用公认的基因和蛋白质符号格式约定非常重要。并且,我的一般习惯是几个基因一起出现时统一使用缩写,而不要缩写和全称混用。例如WB实验经常出现β-actin(这是全称,缩写应为ACTB)、GAPDH(这是缩写),还有EMT相关的E-cadherin(缩写为CDH1)、N-cadherin(缩写为CDH2)和vimentin(缩写为VIM)。不要因为这些单词比较短,就和其他基因的缩写一起混用,这是非常不规范的做法。
一般格式和写作准则
如果可能,为了减少重复基因名称的扩散,请始终使用标准基因名称和符号,这些名称和符号可以在特定于特定生物的社区数据库中找到:
大鼠:rgd.mcw.edu
斑马鱼:zfin.org
苍蝇:flybase.org
使用标准的基因名称和符号通常是科学和医学期刊的特别要求。 如果基因尚未获得批准的名称或符号,则可以向相关数据库或其专业协会提出新的名称或符号名称。
关于正斜体的区分(这种规范性也越来越受到重视):
- 一般来说,基因符号是斜体的(例如,IGF1),而蛋白质的符号不是斜体的(例如,IGF1)。
- RNA和互补DNA(cDNA)符号的格式通常遵循与基因符号相同的约定。
- 如果许多基因一起列在一个表格中,通常由作者(或期刊)自行决定是否应该使用斜体。
- 完整写出的基因名称不是斜体(例如,insulin-like growth factor 1)。
- 基因型名称应为斜体,而表型名称不应为斜体。
几种格式约定也取决于生物体的类型,下文将更详细地讨论这些约定。
虽然专家读者可能熟悉基因和蛋白质符号,但非专家读者可能不确定所代表的特定基因或蛋白质。 因此,最好在首次使用时提供完整的基因或蛋白质名称,后跟括号中的符号(例如,亨廷顿基因huntingtin gene(HTT)),特别是如果你的文章要发表在读者群广泛的期刊上。
除了基因和蛋白质符号的格式外,还有一些方法可以通过在写作中仔细选择单词来强调基因和蛋白质之间的差异。 例如,明确说明你指的是基因还是蛋白质可能会有所帮助,特别是在同时提到基因及其产物的句子中(例如,“我们量化了APOE基因表达和APOE蛋白水平……”). 此外,您可以在指代基因时选择性地使用术语“表达”,在指代RNA或蛋白质时选择性地使用术语“水平”。
生物体特定格式指南
尽管无论生物体类型如何,基因符号为斜体而蛋白质符号不为斜体的一般规则都成立,但生物体在基因和蛋白质符号中字母数字字符的组成和大写方面存在多种差异。
- 人类、非人灵长类动物、鸡和家养物种:基因符号包含三到六个斜体字符,这些字符都是大写的(例如,AFP)。 基因符号可以是字母和阿拉伯数字的组合(例如,1、2、3),但应始终以字母开头;它们通常不包含罗马数字(例如,I,II,III),希腊字母(例如,α,β,γ)或标点符号。 蛋白质符号与其相应的基因符号相同,只是它们没有斜体(例如,AFP)。
- 小鼠和大鼠:基因符号为斜体,只有第一个字母为大写(例如,Gfap)。 蛋白质符号不是斜体,所有字母都是大写的(例如,GFAP)。
- 鱼:与一般规则相反,完整的基因名称是斜体的(例如,黄铜)。 基因符号也是斜体的,所有字母都是小写的(例如,brs)。 蛋白质符号不是斜体,第一个字母是大写的(例如,Brs)。
- 苍蝇:如果:(1)基因以蛋白质命名或(2)基因首先以野生型表型显性的突变表型命名(例如Rpp30),则基因名称和符号以大写字母开头。 如果基因最初是以与野生型表型隐性(例如kis)隐性的突变表型命名的,则基因名称和符号以小写字母开头。 基因符号为斜体。 以基因命名的蛋白质的符号以大写字母开头,但对于未以基因命名的蛋白质,没有公认的格式指南。 蛋白质符号不为斜体。
- 蠕虫:基因符号是斜体的,通常由三到四个字母、一个连字符和一个阿拉伯数字(例如 abu-1)组成。 蛋白质符号不是斜体,所有字母都是大写的(例如,ABU-1)。
- 细菌:基因符号通常由三个小写斜体字母组成,作为基因产物参与的过程或途径的缩写(例如,rpo 基因编码 RNA po lymerase)。 为了区分不同的等位基因,缩写后跟一个大写字母(例如,rpoB 基因编码 RNA 聚合酶的β亚基)。 蛋白质符号不是斜体,第一个字母是大写的(例如,RpoB)。
更多资源
-
Guidelines for Formatting Gene and Protein Names:
https://www.biosciencewriters.com/Guidelines-for-Formatting-Gene-and-Protein-Names.aspx -
维基百科关于基因命名法的页面:
https://en.wikipedia.org -
人类基因命名指南:
https://www.genenames.org -
小鼠和大鼠基因、遗传标记、等位基因和突变命名指南:
https://www.informatics.jax.org -
黑腹果蝇的遗传命名法:
https://flybase.org -
秀丽隐杆线虫的遗传命名法:
https://www.wormbase.org -
The risks of using unapproved gene symbols
https://www.sciencedirect.com/science/article/pii/S0002929721003402