人类高表达基因和低表达基因的密码子使用偏倚差异不显著

全文

研究文章

悉达多Sankar Satapathy^{1 *}Suvendra Kumar雷²Ajit Kumar Sahoo.^2，3蒂娜女王^4.Tapash钱德拉Ghosh^4.

¹Tezpur大学计算机科学与工程系，纳帕姆，Tezpur-784028，阿萨姆，印度
²泰斯普尔大学分子生物与生物技术系，纳帕姆，印度阿萨姆邦，泰斯普尔-784028
^3.当前地址：ITM，Ravenshaw大学，Cuttack-753003，印度Otisha
^4.印度西孟加拉邦加尔各答c.i.t.路P 1/12, Bose研究所生物信息学卓越中心

*通讯作者：Siddhartha Sankar Satapathy, Tezpur大学计算机科学与工程系，Napaam, Tezpur-784028，印度阿萨姆邦，Tel:(+91) 3712 275117;传真:(+91)3712 - 267005/267006;电子邮件:ssankar@tezu.ernet.in

摘要

尽管同义密码子编码相同的氨基酸，但这些密码子在基因组中并不是随机使用的，这种现象被称为密码子使用偏差。在细菌和酵母等低等生物中，高表达基因和低表达基因的密码子使用偏倚是不同的，提示翻译选择对这些生物密码子使用偏倚的作用。与上述生物不同的是，人类的染色体是由具有不同的G+C组成的区域组成的，这被称为同源性，这归因于基因之间的密码子使用偏差的巨大差异。因此，直接比较高表达基因和低表达基因的密码子使用偏倚并不能正确理解翻译选择对人类密码子使用偏倚的作用。在本研究中，我们将人类基因分离成不同的G+C组成组。然后比较各G+C组成组内高表达基因和低表达基因的密码子使用偏倚。我们的研究表明，人类高表达基因和低表达基因在密码子使用偏倚上没有显著差异。我们认为，人类密码子使用偏差的进化并不遵循在低等生物中运行的相同选择机制。

关键字

密码子使用的偏见;密码子有效数;不均匀测量;等容线;选择;分子进化

缩写

小熊：密码子使用偏见;heg：高表达基因;腿：低表达基因

介绍

同义词密码子编码相同的氨基酸;这些在基因组中并不是按比例使用的。密码子使用偏倚现象在每个基因组中都普遍存在。密码子使用偏倚在细菌中得到了广泛的研究。翻译选择[1-4]、tRNA基因数量[5-8]、生长速率[9]、生活方式[10,11]的作用已经被证明影响了细菌密码子的使用偏向性。在真核生物中，翻译选择也可能导致高表达和低表达基因的密码子使用偏倚差异[12,13]。mRNA折叠[14-16]、蛋白折叠动力学[17]对密码子使用偏向性的作用最近也有报道。

在真核生物中，特别是在多细胞生物中，人们对理解影响密码子使用偏倚的选择机制越来越感兴趣。不像细菌的tRNA基因数量是高度可变的，tRNA基因数量在真核生物中是丰富的。原核生物和真核生物的反密码子修饰系统也不相同。有人提出原核生物可能更需要翻译速度，而原核生物[3]可能更需要翻译精度。此外，真核生物的基因调控过程与原核生物不同，这是由于转录和翻译的时空差异:在原核生物中，转录和翻译是耦合的，而在真核生物中，转录和翻译发生在细胞内不同的区域。在多细胞真核生物中，除了组织特异性基因外，某一特定基因表达水平在某一特定时间点在生物体的所有细胞中是不一样的，因为细胞的生理和代谢是不同的。因此，决定原核生物和多细胞真核生物密码子使用偏差的选择力量可能是不同的。

与其他生物不同，人类基因组中的核苷酸组合物具有高度异质的。Bernardi和他的同事[19]提出了人类基因组作为具有可变G + C组成的异卷菊的马赛克。虽然在一些人类基因组G + C％的其他因子区域小于35.0，但在其他一些区域中，它大于55.0。因此，在具有不同G + C％的两个等荷斯中居住在具有不同G + C％的基因中的密码子使用偏差可能是不同的。Jørgensen等。[20]显示了G + C贫困和G + C富含异组之间的密码子的差异用法，如蜜蜂中的地区(蜜蜂)．因此，在人类基因组[12]中，不考虑基因的核苷酸组成而比较基因之间密码子使用偏倚的基因表达可能是不正确的。这是因为属于不同同源性的两个基因默认的密码子组成不同。虽然有报道称人类的组织特异性基因与同杂项[21]有关，但[22]尚未被广泛接受。鉴于此，本文通过分析研究了翻译选择对人类基因密码子使用的影响。令人惊讶的是，高表达基因和低表达基因的密码子使用偏倚没有显著差异。我们认为，在人类和细菌中形成密码子使用偏见的进化力量是不一样的。

材料和方法

人类基因组编码序列和表达水平数据

mRNA-seq数据使用http://genes.mit.edu/burgelab/ mRNA-seq /检索，其中包含22个人体组织或细胞系样本的转录数据，并应用RPKM (Reads Per Kilobase of transcript Per Million)算法测定基因表达水平[23]。使用相同的数据集，我们应用了两种不同的方法来估计我们感兴趣的基因的表达水平。首先，我们将所有22个组织的平均强度值视为该基因的表达水平[24- 26]。第二，如果一个基因的表达值大于M+2×MAD，则定义为在组织中表达，其中M和MAD由M =中位数(x)决定;x表示相应基因在所有组织中的平均表达值[23,27]。对于每个基因，我们将过表达的组织数量相加，计算组织表达宽度。我们进一步考虑了基因在被表达的组织中的平均表达值。虽然我们考虑的是一个基因的平均表达数据而不是唯一的最大表达数据，但即使我们考虑的是最大表达而不是平均表达，结论仍然是相同的，最大表达水平和平均表达水平相关性很强。人类基因序列从Ensembl.网站（http：//asia.ensembl。org / homo_sapiens /信息/索引）。来自Ishihama等人考虑的大肠杆菌的蛋白质组数据。[28]。

在人类基因组中把基因分成不同的同工类

人类基因组是具有可变G + C％的异卷团的马赛克。这些等载体分为五类，L1，L2，H1，H 2和H3，具有G + C％<37.0,37.0≤g+ c％<42.0,42.0≤g+ c％<47.0,47.0≤g+ c％<52.0和G + C％≥52.0分别[29]。因此，我们认为基因为5组，根据其G + C％。在本研究中考虑了总基因表达数据的11737个基因。在表1中给出每个G + C％基团的基因数。在每个G + C％基团中，基因根据其表达水平排列，下降顺序，前5％基因被认为是高表达基因（HEG）和底部5％基因被认为是低表达基因（腿）。与一般期望一致，大多数核糖体蛋白基因在不同的等载体的毛灵下分组。

由于背景核苷酸组合物以外的因素，测量基因中的整体密码子使用偏差

为了更好地理解选择机制对CUB的贡献，Novembre[30]引入了一个名为ENC Prime(或ˆN_c)，在过滤掉基于背景核苷酸组成的预期密码子使用后，测量基因中的CUB。由于背景核苷酸组成大部分被认为是由突变因素造成的，因此‘ˆN_c已被广泛用于研究生物密码子使用偏倚的选择[31/32]。“ˆN_c可以是错误的，因此，我们使用了一个修改版的'n_c(命名为ˆmN_cAvailable)可在门户网站http://agnigarh.tezu.ernet获得。在/ ~ ssankar / cub.php[33]。

在基因中测量S和UDG

Sharp等人。[1]定义了估计细菌种类中所选幼崽的强度的措施，使用氨基酸Phe，Tyr，ILE和ASN氨基酸的WWY密码子。Ile的密码子Aua在细菌中没有考虑在细菌中，因为这种密码子在基因组中很低。C端密码子比这四个氨基酸中的U端同义密码子平移地更赞成[1,34]。测量结果试图估计这些氨基酸的C末端密码子在生物体中所有基因上的高表达基因中优选在何种程度上。生物体的S值是对这四个氨基酸计算的S值的加权平均值。S值越高，选择强度更强。我们开发了一种使用C语言的计算机程序来计算S的版本和在线版本的网络门户网站http://agnigarh.tezu.net.in/~sankar/svalue.php。

表1:不同G+C组成的人类基因

对于人类基因组，我们在计算S值时考虑了Phe、Asn和Tyr密码子。未考虑Ile密码子，因为人类与细菌的密码子-反密码子相互作用情况不同。对于Phe、Asn和Tyr这三个氨基酸，以G为第一位置的反密码子比以A为第一位置的同受体tRNA多(tRNA基因组数据库;http://gtrnadb.ucsc.edu/)。因此，人类氨基酸中以c结尾的密码子在翻译上也比以细菌为同义词的u结尾的密码子更受欢迎。值得注意的是，对于细菌[34]中不同的氨基酸，选择压力的强度并不总是相同的。因此在本研究中，我们将三种氨基酸的S值单独考虑，而不是计算它们的加权平均值。

编码序列中的四重简并位点(FDS)被用于研究CUB的选择压力[35-39]。在最近的[32]研究中，我们观察到在高表达基因(HEG)中GGU密码子的选择是细菌的一个普遍特征。HEG中GGU密码子频率与全组基因(UdG;用甘氨酸U差值)测定幼崽在细菌中的选择强度。我们最近对[39]细菌反密码子多样性的研究进一步证实了细菌对GGU密码子的选择。在CUB上，UdG值越高，翻译选择越强。在G+C%高基因组组成的细菌中，当S值不适合[32]时，UdG值是一个很好的翻译选择强度指标。在本研究中，我们也考虑了人类的UdG值来衡量CUB上的翻译选择。

结果

ENC，高表达基因之间的主要差异在人体中微不足道

ENC启动子是[30]基因密码子使用偏倚的一般衡量标准。为了了解高(HEG)表达基因和低(LEG)表达基因的总体密码子使用偏度差异，我们计算了ENCPrime(或ˆmN)_c)为人类基因中HEG和LEG组的基因值。密码子丰度值可能对'ˆmN '有影响_c值，我们在密码子大小≥500和密码子大小<500的两组基因中进行了研究。'ˆmN_c不同G+C%组的值见图1。从图1可以看出，HEG组和LEG组的箱形图相似，‘ˆmN’_c值非常接近可能的最高值ˆmN_c值61.0。与小基因相比，大基因的这一观察结果更清楚。在大肠杆菌的情况下，可以观察到HEG和LEG的盒线图有显著的差异(图2)。这一结果进一步表明，人类CUB的翻译选择非常弱。

人类基因组S和UdG值分析:高表达基因和低表达基因密码子使用偏倚的比较

密码子使用高和低表达基因之间的偏差差异主要归因于细菌中的平移选择。通过比较高和低表达基因之间的密码子使用偏压来使用诸如S和UDG的两种测量来估计选择。

图1：分布'Mn_c人类基因组人物中的HEG和腿的值呈现了“MN”框图的十个面板图_c人类基因的价值。基因根据其G + C％和基因尺寸进行分组。使用XLSTAT软件制定盒块。

图2：分布'Mn_c大肠杆菌基因组图中HEG和腿的值呈现了“MN的”MN“盒图的2个面板图_cHEG和LEG大肠杆菌基因的价值。用XLSTAT软件编制箱形图。在这两组基因中，大(密码子≥500)和小(密码子< 500)的箱形图存在明显差异。对于高表达基因，ˆmN_c值在20到61的范围内的下半部分，而低表达基因，ˆmN_c价值接近上半部分。

锐利的措施是夏普等人。[1]。通过分析PHE，TYR和ASN氨基酸的密码子使用来计算S值。考虑单个G + C组合物基团（异卷仪）中的高表达基因，我们计算了三个氨基酸ASN，PHE和TYR的S值。结果显示在表2中。近0.0°表示高表达基因与低表达基因之间的微不足道。每种人类中的三种氨基酸的所有S值接近0.0，这表明G + C组合物组中的高表达基因与低表达基因之间的密码子使用偏压的微不足道。使用计算机程序，我们计算了300种奇数细菌中的S值。与Sharp等人的研究结果相一致。[1]（图3）。

UdG测量由Satapathy等人[41]开发。通过比较高表达基因和低表达基因对Gly密码子的使用偏倚来计算。在这里，我们计算了不同G+C组成组的人类基因的UdG值。结果如表2所示。以人类为例，不同G+C%组的UdG值非常低(接近0.0)，说明高表达基因和低表达基因的密码子使用偏倚差异不显著。

表2:人类基因组中不同G+C组成组的基因S[1]和UdG[32]值

讨论

我们对不同基因组合物的高表达基因（HEG）和低表达基因（腿）之间的密码子使用偏差的比较分析表明，两组基因与其密码子使用偏差之间没有显着差异。这表明，与系统源低生物体不同，对人类使用偏差的翻译选择影响非常弱。在这项研究中，在本研究中的同意，早期MarieSémon等。已经表明，在不同人体组织中表达的基因之间的同义密码子使用变异性仅是因为异卷仪的GC含量差异，并且这种可变性不是由于翻译选择。

对于它们的密码子使用偏压，高和低表达基因也不总是如此。即使在大肠杆菌它通过微阵列实验记录了很好的记录[42]。例如，若干基因如翻译引发因子IF-3基因INFC，氨基转移酶基因国家电力等等，具有非常低的密码子使用偏差，但它们的表达水平非常高，如具有强密码子使用偏差的基因。再次大肠杆菌，人工基因构建实验研究表明，不具有显着密码子组合物的基因与其基因表达的情况非常不同[43]。已经提出了与翻译启动有关的不同假设，以解释他研究中的观察。然而，在早期数据的重新分析后，最近通过不同的组在本研究中强调了密码子组合物的作用[44]。

虽然我们在人类编码序列中没有观察到翻译选择对密码子使用偏倚的影响，但不能排除选择对人类密码子使用偏倚的影响。值得注意的是，仅对22个不同组织的基因表达数据进行了分析。因此，本研究得出的结论可能需要谨慎解释。为了进一步验证本研究得出的结论，需要更大的数据集进行更大规模的研究。

虽然我们没有观察到一个强大的区别HEG和腿对密码子使用偏差在人类在这项研究中,选择编码序列与基因表达可能发生在不同的层次等信使rna折叠[45],蛋白质折叠[17],二核苷酸约束[41]和[46]反密码子修改。值得一提的是，人类的表达宽度可能不仅由遗传因素决定，还可能受到表观遗传因素的调控，如人类基因组中的DNA甲基化和组蛋白修饰[47,48]。与低等生物相比，人类HEG和LEG之间不同类型的密码子使用偏差适应是否在对抗病毒入侵方面有任何优势，是一个有趣的未来探索问题。

图3:用于细菌中的四个氨基酸的S值的分布，四个面板图显示了四个氨基酸Phe，Asn，ILe和Tyr的S [1]值的分布。共考虑共有305种独特的细菌。由于可以观察到，S值对于不同物种的所有四个氨基酸具有高度变化的细菌。

研究密码子使用偏倚的选择，最好的方法是对不同基因进行比较替代分析。与低选择条件下的基因序列不同，选择条件下的基因序列能够抵抗同义变化。这种工作在人类和不同的真核生物中很少。在未来的比较基因组学将提供更多的原因，密码子使用偏倚人类。

确认

AKS和TB分别担任印度政府资助的DBT与TCG、SKR和SSS生物信息学领域结对项目的高级研究员和副研究员。对这个项目的财政支持得到了感谢。我们也感谢DBT资助的Tezpur大学生物信息学基础设施设施。

参考文献

Sharp PM, Bailes E, Grocock RJ, Peden JF, Sockett RE(2005)细菌中选择密码子使用偏差的强度变化。核酸Res 33:1141-1153。[参考。］
王B，邵Z-Q，徐y，刘家，刘y，悬挂Y-y，陈j-q（2011）细菌的最佳密码子标识：来自两种不同方法的矛盾结果的影响。PLO一6：E22714。[参考。］
Ran W, Higgs PG(2010)细菌中反密码子-密码子相互作用和修饰碱基对密码子使用偏差的影响。Mol Biol Evol 27:21 9 - 2140。[参考。］
Wald N, Alroy M, Botzman M, Margalit H(2012)原核生物嘧啶末端密码子的密码子使用偏差与编码氨基酸的简并度有关。核酸Res 40:7074 - 7083。[参考。］
Bulmer M(1991)同义密码子使用的选择-突变-漂移理论。遗传学129:897 - 907。[参考。］
Dong H, Nilsson L, Kurland CG(1996)不同生长速率下大肠杆菌tRNA丰度和密码子使用的共变异。中华医学杂志(英文版)[参考。］
Kanaya S，Yamada Y，Kudo Y，Ikemura T（1999）对18个单细胞生物的密码子使用和TRNA基因的研究和枯草芽孢杆菌的定量：基于多变量分析的密码子使用的基因表达水平和物种多样性。基因238：143-155。[参考。］
Kanaya S, Yamada Y, Kinouchi M, Kudo Y, Ikemura T(2001)真核生物密码子使用和tRNA基因:密码子使用多样性与翻译效率和cg -二核苷酸使用的多变量分析的相关性。中国科学:地球科学(英文版)[参考。］
Rocha EPC (2004) tRNA视角下的密码子使用偏差、冗余、专用性和高效译码优化。基因组Res 14:2279 - 2286。[参考。］
Lynn DJ, Singer GA, Hickey DA(2002)在嗜热细菌中，同义词密码子的使用受到选择的影响。核酸Res 30:4272-4277。[参考。］
Botzman M, Margalit H(2011)原核生物中全球密码子使用偏差的变化与他们的生活方式有关。基因组医学杂志12:R109。[参考。］
DOS REIS M，WERNISCH L（2009）估算真核基因组中的翻译选择。Mol Biol Evol 26：451-461. [参考。］
Mukhopadhyay P, Basak S, Ghosh TC(2008)水稻和拟南芥的管家和组织特异性同源基因密码子使用模式的差异选择约束。DNA Res 15:347 - 356。[参考。］
Chamary JV, Hurst LD(2005)内含子-外显子连接附近的偏置密码子使用:剪接增强子的选择，剪接位点的识别还是其他什么?趋势麝猫21:256 - 259。[参考。］
Kober KM, Pogson GH(2013)紫色海胆(Strongylocentrotus purpuratus)的密码子偏性全基因组模式是由自然选择形成的。G3(贝塞斯达)3:1069 - 1083。[参考。］
Shabalina SA, Spiridonov NA, Kashina A(2013)沉默之声:同义核苷酸作为生物调控和复杂性的关键。核酸Res 41:2073-2094。[参考。］
Ray SK, Baruah VJ, Satapathy SS, Banerjee R(2014)共翻译蛋白折叠揭示了低表达基因编码序列上同义密码子的选择性使用。J麝猫93:613 - 617。[参考。］
GroSjean H，DeCrécy-lagard v，Marck C（2010）在寿讯三个域中解剖同义密码子：具有特异性TRNA改性酶的共同发展。FEBS字母584：252-264。[参考。］
Bernardi G, Olofsson B, Filipski J, Zerial M, Salinas J，等。科学228:953 - 958。[参考。］
Jørgensen FG, Schierup MH, Clark AG(2007)意大利蜜蜂(Apis mellifera)基因组贫气区和富气区GC含量的区域异质性及密码子和氨基酸使用差异。Mol Biol Evol 24:611-619。[参考。］
Plotkin JB, Robins H, Levine AJ(2004)组织特异性密码子使用与人类基因表达。美国国家科学院院刊101:12588-12591。[参考。］
Sémon M, Lobry JR, Duret L(2006)没有证据表明人类的同义密码子使用具有组织特异性的适应性。Mol Biol Evol 23:523-529。
Wang ET al.， Sandberg R .， Luo S .， Khrebtukova I .， Zhang L .， ET al.(2008)人类组织转录组的替代亚型调控。自然456:470 - 476。[参考。］
[杨军，苏爱，李文华(2005)哺乳动物基因中基因表达在狭表达区比在广表达区进化得更快。Mol Biol Evol 22:2113-2118。[参考。］
廖，张j（2006）人参型外科基因表达谱的进化守恒。Mol Biol Evol 23：530-540。[参考。］
Begum T，Ghosh TC（2010）了解二次结构和聚集在人蛋白折叠阶级演化的影响。J Mol Evol 71：60-69。[参考。］
Begum T, Ghosh TC(2014)从进化的角度阐明人类共享和特定疾病基因的基因型-表型关系和网络扰动。基因组生物学进化6:2741-2753。
Ishihama Y, Schmidt T, Rappsilber J, Mann M, Hartl FU, et al.(2008)大肠杆菌细胞质蛋白丰度分析。BMC基因组9:102。[参考。］
Bernardi G（2001）关于伊代谢斯的误解。第1部分基因276：3-13。[参考。］
Novembre JA(2002)在测量密码子使用偏倚时考虑背景核苷酸组成。Mol Biol Evol 19:1390-1394。[参考。］
Hershberg R, Petrov DA(2009)最优密码子选择的一般规律。公共科学图书馆麝猫5:e1000556。[参考。］
Satapathy SS, Powdel BR, Dutta M, Buragohain AK, Ray SK(2014)细菌高表达基因GGU和CGU密码子的选择。J Mol Evol 78:13-23。[参考。］
Sahoo AK, Ray SK, Ghosh TC, Satapathy SS(2015)一个使用改进的ENCprime (mNc’)的门户网站，以更准确地测量密码子使用偏差。(未发表)
Satapathy SS，Dutta M，Buragohain Ak，Ray SK（2012）转移RNA基因编号可能无法完全负责浅冬酰胺，异氨酸，苯丙氨酸和酪氨酸中的密码子使用偏差在细菌中的高表达基因中。J Mol Evol 75：34-42。[参考。］
Sueoka N (1995) DNA碱基组成的链内奇偶性规则和同义密码子的使用偏差。J Mol Evol 40:318-325。[参考。］
Lobry JR，Sueoka N（2002）细菌中的不对称定向突变压力。基因组BIOL 3：1-14。[参考。］
关键词:线粒体基因组，密码子，突变，翻译选择Mol Biol Evol 25:39 - 351。[参考。］
Hershberg R, Petrov DA(2010)证据表明，细菌中的突变普遍倾向于AT。公共科学图书馆麝猫6:e1001115。[参考。］
Rocha EPC, Feil EJ(2010)突变模式无法解释基因组组成:细菌基因组中是否存在中性位点?公共科学图书馆麝猫6:e1001104。[参考。］
Prajapati VK, Satapathy SS, Satish Kumar MV, Buragohain AK, Ray SK(2015)细菌中C34 03反密码子发生的选择机制的证据。J Cell Sci molecular Biol 2:112。[参考。］
Satapathy SS, Powdel BR, Dutta M, Buragohain AK, Ray SK(2014)通过密码子使用偏差对细菌基因组中二核苷酸的约束。基因536:18-28。[参考。］
dos Reis M, Wernisch L, Savva R(2003)从整个大肠杆菌K-12基因组微阵列数据中获得的基因表达和密码子使用偏倚之间的意外相关性。核酸Res 31:6976-6985。[参考。］
(2009)大肠埃希菌基因表达的编码序列决定因素。科学324:255 - 258。[参考。］
[夏旭(2015)一种新的密码子使用指数解决了密码子-反密码子适应的重大争议。]遗传学199:573 - 579。[参考。］
Park C, Chen X, Yang JR, Zhang J(2013)对mRNA折叠的不同需求部分解释了高表达蛋白进化缓慢的原因。美国国家科学院学报。110: e678 - 686。[参考。］
Endres L，Dedon PC，Begley TJ（2015）密码子偏置翻译可以通过在细胞应激响应期间通过Wobble基础TRNA改性系统进行调节。RNA生物学12：603-614。[参考。］
(2009)靶向和基因组规模策略揭示了人类细胞中基因体甲基化特征。生物科技Nat》27:361 - 368。[参考。］
Barski A, Cuddapah S, Cui K, Roh T-Y, Schones DE, et al.(2007)人类基因组组蛋白甲基化的高分辨率分析。细胞129:823 - 837。[参考。］

在这里下载临时PDF

PDF

条信息

Aritcle类型:研究文章

引用:Satapathy SS，Ray SK，Sahoo Ak，Begum T，Ghosh TC（2015）密码子使用偏差在人类的高和低表达基因之间没有显着差异。int J Mol Genet基因THER 1（1）：DOI http://dx.doi.org/10.16966/2471- 4968.103

出版的历史:

收到日期:2015年10月29日

接受日期:2015年11月5日

发表日期:2015年11月10

全文