![](http://www.bkwen.com/journals/genetics/article-data/SGGT-1-103/SGGT-1-103-T1.gif)
表1:不同G+C组成的人类基因
悉达多Sankar Satapathy1 *Suvendra Kumar雷2Ajit Kumar Sahoo.2,3蒂娜女王4.Tapash钱德拉Ghosh4.
1Tezpur大学计算机科学与工程系,纳帕姆,Tezpur-784028,阿萨姆,印度*通讯作者:Siddhartha Sankar Satapathy, Tezpur大学计算机科学与工程系,Napaam, Tezpur-784028,印度阿萨姆邦,Tel:(+91) 3712 275117;传真:(+91)3712 - 267005/267006;电子邮件:ssankar@tezu.ernet.in
尽管同义密码子编码相同的氨基酸,但这些密码子在基因组中并不是随机使用的,这种现象被称为密码子使用偏差。在细菌和酵母等低等生物中,高表达基因和低表达基因的密码子使用偏倚是不同的,提示翻译选择对这些生物密码子使用偏倚的作用。与上述生物不同的是,人类的染色体是由具有不同的G+C组成的区域组成的,这被称为同源性,这归因于基因之间的密码子使用偏差的巨大差异。因此,直接比较高表达基因和低表达基因的密码子使用偏倚并不能正确理解翻译选择对人类密码子使用偏倚的作用。在本研究中,我们将人类基因分离成不同的G+C组成组。然后比较各G+C组成组内高表达基因和低表达基因的密码子使用偏倚。我们的研究表明,人类高表达基因和低表达基因在密码子使用偏倚上没有显著差异。我们认为,人类密码子使用偏差的进化并不遵循在低等生物中运行的相同选择机制。
密码子使用的偏见;密码子有效数;不均匀测量;等容线;选择;分子进化
小熊:密码子使用偏见;heg:高表达基因;腿:低表达基因
同义词密码子编码相同的氨基酸;这些在基因组中并不是按比例使用的。密码子使用偏倚现象在每个基因组中都普遍存在。密码子使用偏倚在细菌中得到了广泛的研究。翻译选择[1-4]、tRNA基因数量[5-8]、生长速率[9]、生活方式[10,11]的作用已经被证明影响了细菌密码子的使用偏向性。在真核生物中,翻译选择也可能导致高表达和低表达基因的密码子使用偏倚差异[12,13]。mRNA折叠[14-16]、蛋白折叠动力学[17]对密码子使用偏向性的作用最近也有报道。
在真核生物中,特别是在多细胞生物中,人们对理解影响密码子使用偏倚的选择机制越来越感兴趣。不像细菌的tRNA基因数量是高度可变的,tRNA基因数量在真核生物中是丰富的。原核生物和真核生物的反密码子修饰系统也不相同。有人提出原核生物可能更需要翻译速度,而原核生物[3]可能更需要翻译精度。此外,真核生物的基因调控过程与原核生物不同,这是由于转录和翻译的时空差异:在原核生物中,转录和翻译是耦合的,而在真核生物中,转录和翻译发生在细胞内不同的区域。在多细胞真核生物中,除了组织特异性基因外,某一特定基因表达水平在某一特定时间点在生物体的所有细胞中是不一样的,因为细胞的生理和代谢是不同的。因此,决定原核生物和多细胞真核生物密码子使用偏差的选择力量可能是不同的。
与其他生物不同,人类基因组中的核苷酸组合物具有高度异质的。Bernardi和他的同事[19]提出了人类基因组作为具有可变G + C组成的异卷菊的马赛克。虽然在一些人类基因组G + C%的其他因子区域小于35.0,但在其他一些区域中,它大于55.0。因此,在具有不同G + C%的两个等荷斯中居住在具有不同G + C%的基因中的密码子使用偏差可能是不同的。Jørgensen等。[20]显示了G + C贫困和G + C富含异组之间的密码子的差异用法,如蜜蜂中的地区(蜜蜂).因此,在人类基因组[12]中,不考虑基因的核苷酸组成而比较基因之间密码子使用偏倚的基因表达可能是不正确的。这是因为属于不同同源性的两个基因默认的密码子组成不同。虽然有报道称人类的组织特异性基因与同杂项[21]有关,但[22]尚未被广泛接受。鉴于此,本文通过分析研究了翻译选择对人类基因密码子使用的影响。令人惊讶的是,高表达基因和低表达基因的密码子使用偏倚没有显著差异。我们认为,在人类和细菌中形成密码子使用偏见的进化力量是不一样的。
mRNA-seq数据使用http://genes.mit.edu/burgelab/ mRNA-seq /检索,其中包含22个人体组织或细胞系样本的转录数据,并应用RPKM (Reads Per Kilobase of transcript Per Million)算法测定基因表达水平[23]。使用相同的数据集,我们应用了两种不同的方法来估计我们感兴趣的基因的表达水平。首先,我们将所有22个组织的平均强度值视为该基因的表达水平[24- 26]。第二,如果一个基因的表达值大于M+2×MAD,则定义为在组织中表达,其中M和MAD由M =中位数(x)决定;x表示相应基因在所有组织中的平均表达值[23,27]。对于每个基因,我们将过表达的组织数量相加,计算组织表达宽度。我们进一步考虑了基因在被表达的组织中的平均表达值。虽然我们考虑的是一个基因的平均表达数据而不是唯一的最大表达数据,但即使我们考虑的是最大表达而不是平均表达,结论仍然是相同的,最大表达水平和平均表达水平相关性很强。人类基因序列从Ensembl.网站(http://asia.ensembl。org / homo_sapiens /信息/索引)。来自Ishihama等人考虑的大肠杆菌的蛋白质组数据。[28]。
人类基因组是具有可变G + C%的异卷团的马赛克。这些等载体分为五类,L1,L2,H1,H 2和H3,具有G + C%<37.0,37.0≤g+ c%<42.0,42.0≤g+ c%<47.0,47.0≤g+ c%<52.0和G + C%≥52.0分别[29]。因此,我们认为基因为5组,根据其G + C%。在本研究中考虑了总基因表达数据的11737个基因。在表1中给出每个G + C%基团的基因数。在每个G + C%基团中,基因根据其表达水平排列,下降顺序,前5%基因被认为是高表达基因(HEG)和底部5%基因被认为是低表达基因(腿)。与一般期望一致,大多数核糖体蛋白基因在不同的等载体的毛灵下分组。
为了更好地理解选择机制对CUB的贡献,Novembre[30]引入了一个名为ENC Prime(或ˆNc),在过滤掉基于背景核苷酸组成的预期密码子使用后,测量基因中的CUB。由于背景核苷酸组成大部分被认为是由突变因素造成的,因此‘ˆNc已被广泛用于研究生物密码子使用偏倚的选择[31/32]。“ˆNc可以是错误的,因此,我们使用了一个修改版的'nc(命名为ˆmNcAvailable)可在门户网站http://agnigarh.tezu.ernet获得。在/ ~ ssankar / cub.php[33]。
Sharp等人。[1]定义了估计细菌种类中所选幼崽的强度的措施,使用氨基酸Phe,Tyr,ILE和ASN氨基酸的WWY密码子。Ile的密码子Aua在细菌中没有考虑在细菌中,因为这种密码子在基因组中很低。C端密码子比这四个氨基酸中的U端同义密码子平移地更赞成[1,34]。测量结果试图估计这些氨基酸的C末端密码子在生物体中所有基因上的高表达基因中优选在何种程度上。生物体的S值是对这四个氨基酸计算的S值的加权平均值。S值越高,选择强度更强。我们开发了一种使用C语言的计算机程序来计算S的版本和在线版本的网络门户网站http://agnigarh.tezu.net.in/~sankar/svalue.php。
表1:不同G+C组成的人类基因
对于人类基因组,我们在计算S值时考虑了Phe、Asn和Tyr密码子。未考虑Ile密码子,因为人类与细菌的密码子-反密码子相互作用情况不同。对于Phe、Asn和Tyr这三个氨基酸,以G为第一位置的反密码子比以A为第一位置的同受体tRNA多(tRNA基因组数据库;http://gtrnadb.ucsc.edu/)。因此,人类氨基酸中以c结尾的密码子在翻译上也比以细菌为同义词的u结尾的密码子更受欢迎。值得注意的是,对于细菌[34]中不同的氨基酸,选择压力的强度并不总是相同的。因此在本研究中,我们将三种氨基酸的S值单独考虑,而不是计算它们的加权平均值。
编码序列中的四重简并位点(FDS)被用于研究CUB的选择压力[35-39]。在最近的[32]研究中,我们观察到在高表达基因(HEG)中GGU密码子的选择是细菌的一个普遍特征。HEG中GGU密码子频率与全组基因(UdG;用甘氨酸U差值)测定幼崽在细菌中的选择强度。我们最近对[39]细菌反密码子多样性的研究进一步证实了细菌对GGU密码子的选择。在CUB上,UdG值越高,翻译选择越强。在G+C%高基因组组成的细菌中,当S值不适合[32]时,UdG值是一个很好的翻译选择强度指标。在本研究中,我们也考虑了人类的UdG值来衡量CUB上的翻译选择。
ENC启动子是[30]基因密码子使用偏倚的一般衡量标准。为了了解高(HEG)表达基因和低(LEG)表达基因的总体密码子使用偏度差异,我们计算了ENCPrime(或ˆmN)c)为人类基因中HEG和LEG组的基因值。密码子丰度值可能对'ˆmN '有影响c值,我们在密码子大小≥500和密码子大小<500的两组基因中进行了研究。'ˆmNc不同G+C%组的值见图1。从图1可以看出,HEG组和LEG组的箱形图相似,‘ˆmN’c值非常接近可能的最高值ˆmNc值61.0。与小基因相比,大基因的这一观察结果更清楚。在大肠杆菌的情况下,可以观察到HEG和LEG的盒线图有显著的差异(图2)。这一结果进一步表明,人类CUB的翻译选择非常弱。
密码子使用高和低表达基因之间的偏差差异主要归因于细菌中的平移选择。通过比较高和低表达基因之间的密码子使用偏压来使用诸如S和UDG的两种测量来估计选择。
图1:分布'Mnc人类基因组人物中的HEG和腿的值呈现了“MN”框图的十个面板图c人类基因的价值。基因根据其G + C%和基因尺寸进行分组。使用XLSTAT软件制定盒块。
图2:分布'Mnc大肠杆菌基因组图中HEG和腿的值呈现了“MN的”MN“盒图的2个面板图cHEG和LEG大肠杆菌基因的价值。用XLSTAT软件编制箱形图。在这两组基因中,大(密码子≥500)和小(密码子< 500)的箱形图存在明显差异。对于高表达基因,ˆmNc值在20到61的范围内的下半部分,而低表达基因,ˆmNc价值接近上半部分。
锐利的措施是夏普等人。[1]。通过分析PHE,TYR和ASN氨基酸的密码子使用来计算S值。考虑单个G + C组合物基团(异卷仪)中的高表达基因,我们计算了三个氨基酸ASN,PHE和TYR的S值。结果显示在表2中。近0.0°表示高表达基因与低表达基因之间的微不足道。每种人类中的三种氨基酸的所有S值接近0.0,这表明G + C组合物组中的高表达基因与低表达基因之间的密码子使用偏压的微不足道。使用计算机程序,我们计算了300种奇数细菌中的S值。与Sharp等人的研究结果相一致。[1](图3)。
UdG测量由Satapathy等人[41]开发。通过比较高表达基因和低表达基因对Gly密码子的使用偏倚来计算。在这里,我们计算了不同G+C组成组的人类基因的UdG值。结果如表2所示。以人类为例,不同G+C%组的UdG值非常低(接近0.0),说明高表达基因和低表达基因的密码子使用偏倚差异不显著。
表2:人类基因组中不同G+C组成组的基因S[1]和UdG[32]值
我们对不同基因组合物的高表达基因(HEG)和低表达基因(腿)之间的密码子使用偏差的比较分析表明,两组基因与其密码子使用偏差之间没有显着差异。这表明,与系统源低生物体不同,对人类使用偏差的翻译选择影响非常弱。在这项研究中,在本研究中的同意,早期MarieSémon等。已经表明,在不同人体组织中表达的基因之间的同义密码子使用变异性仅是因为异卷仪的GC含量差异,并且这种可变性不是由于翻译选择。
对于它们的密码子使用偏压,高和低表达基因也不总是如此。即使在大肠杆菌它通过微阵列实验记录了很好的记录[42]。例如,若干基因如翻译引发因子IF-3基因INFC,氨基转移酶基因国家电力等等,具有非常低的密码子使用偏差,但它们的表达水平非常高,如具有强密码子使用偏差的基因。再次大肠杆菌,人工基因构建实验研究表明,不具有显着密码子组合物的基因与其基因表达的情况非常不同[43]。已经提出了与翻译启动有关的不同假设,以解释他研究中的观察。然而,在早期数据的重新分析后,最近通过不同的组在本研究中强调了密码子组合物的作用[44]。
虽然我们在人类编码序列中没有观察到翻译选择对密码子使用偏倚的影响,但不能排除选择对人类密码子使用偏倚的影响。值得注意的是,仅对22个不同组织的基因表达数据进行了分析。因此,本研究得出的结论可能需要谨慎解释。为了进一步验证本研究得出的结论,需要更大的数据集进行更大规模的研究。
虽然我们没有观察到一个强大的区别HEG和腿对密码子使用偏差在人类在这项研究中,选择编码序列与基因表达可能发生在不同的层次等信使rna折叠[45],蛋白质折叠[17],二核苷酸约束[41]和[46]反密码子修改。值得一提的是,人类的表达宽度可能不仅由遗传因素决定,还可能受到表观遗传因素的调控,如人类基因组中的DNA甲基化和组蛋白修饰[47,48]。与低等生物相比,人类HEG和LEG之间不同类型的密码子使用偏差适应是否在对抗病毒入侵方面有任何优势,是一个有趣的未来探索问题。
图3:用于细菌中的四个氨基酸的S值的分布,四个面板图显示了四个氨基酸Phe,Asn,ILe和Tyr的S [1]值的分布。共考虑共有305种独特的细菌。由于可以观察到,S值对于不同物种的所有四个氨基酸具有高度变化的细菌。
研究密码子使用偏倚的选择,最好的方法是对不同基因进行比较替代分析。与低选择条件下的基因序列不同,选择条件下的基因序列能够抵抗同义变化。这种工作在人类和不同的真核生物中很少。在未来的比较基因组学将提供更多的原因,密码子使用偏倚人类。
AKS和TB分别担任印度政府资助的DBT与TCG、SKR和SSS生物信息学领域结对项目的高级研究员和副研究员。对这个项目的财政支持得到了感谢。我们也感谢DBT资助的Tezpur大学生物信息学基础设施设施。
在这里下载临时PDF
Aritcle类型:研究文章
引用:Satapathy SS,Ray SK,Sahoo Ak,Begum T,Ghosh TC(2015)密码子使用偏差在人类的高和低表达基因之间没有显着差异。int J Mol Genet基因THER 1(1):DOI http://dx.doi.org/10.16966/2471- 4968.103
版权:©2015 Satapathy SS等。这是一篇开放获取的文章,在知识共享署名许可协议的条款下发布,该协议允许在任何媒体上无限制地使用、发布和复制,前提是注明原作者和来源。
出版的历史:
所有Sc德赢娱乐国际i Forschen期刊都是开放获取的