一千个植物转录组和绿色植物的系统基因组学

  没有使用统计方法来预先确定样本量。尽管基因组重复分析中包括的模拟确实包括从随机分布中绘制的模拟,但实验并非随机。在实验和结果评估中,研究人员并未对分配视而不见。   如其他位置所述的39,67,68所述,从所有物种中分离出从所有物种中分离出RNA。某些物种还包括生殖组织(补充表1)。成绩单组件,污染物鉴定和基因家庭限制也如前所述进行39,并在补充方法中进行了更详细的描述。   使用星体对单拷贝基因树进行了分析,以说明由于谱系不完全排序15,69的基因树之间的变化。对根据未上线的氨基酸比对,第一和第二密码子,具有未加权的BINS70,71和过滤的分类单元组(如下所述的“ Rogue”分类群)估算的基因树进行了星体分析,并进行了估算的估计,该估计值是否可以效应33%的效果。(补充图6)。Binning在单胎垃圾箱中留下了大多数基因,对整个物种树的影响最小。除非另有说明,否则我们使用“星体拓扑”来指根据410个未扣除的氨基酸比对推断的树,其中支撑为33%或更少。此外,使用先前描述的方法72对串联的核基因比对和串联的质体基因比对进行了超髓分析。所有用于对核基因数据进行分析的脚本均可在https://doi.org/10.5281/zenodo.3255100获得。   我们基于每个基因的预测氨基酸序列和强制DNA序列建立了多个序列比对,以符合氨基酸比对。我们首先将每个基因中的序列分为两个子集,分别为全长和异常序列,然后使用带有默认设置的Pasta73来对齐全长序列,然后UPP74将异常序列添加到全长比对中。我们被指定为异常,比全长基因序列的中位长度短66%或66%。一旦获得了UPP对准,我们将其从它们中删除,即(即插入)位点。然后,DNA比对从氨基酸序列比对(FAA2FNA)得出,并且由于GC含量的物种变化之间的极端变化,将第三个密码子位置去除(补充图7)。为了减少运行时间,我们从包含超过90%差距的对齐中掩盖了所有站点。最后,由于在基因树估计中包含碎片数据可能是有问题的75,因此我们删除了至少有67%位点过滤的位点的差异的任何序列(根据模拟结果选择了67%的阈值75)。在我们分析中使用的1,178个加入中410个单拷贝基因的基因序列占用率显示为频率直方图(补充图4)和热图(补充图5)。   除了过滤gapp节位点和碎片序列外,我们还鉴定并去除了放置在其各自基因树上的非常长的分支上的序列。为了识别这些,我们使用初始对齐来构建基因树(见下文)。然后,我们通过找到将最大的群体独家组或红藻类分类单元组分开的两部分来扎根每个基因树。如果该基因完全缺少红色藻类,我们使用了glaucophyta,prasinocokococcales,prasinophytes,volvox carteri,reinhardtii或klebsormidium nitens。然后,我们删除了所有具有四个标准偏差的根到尖端距离的序列,该序列比每个基因树中的根对尖端距离的中位数更长。一旦去除了长分支上的这些序列,就使用上述相同的方法重新估算了对齐,并估计了新的基因树。   为了估算基因树,我们使用了RAXML v.8.1.1776,其中一棵起始树来建造初始树(用于长支流过滤),而10种不同的起始树作为最终的基因树。通过100个重复的自举评估支持。对于DNA分析,使用了GTR替代模型和伽马分布的位点速率。对于氨基酸序列,我们使用了一个从RAXML网站改编的PERL脚本在每个基因的固定起始树上搜索16个不同的替代模型,并选择了具有最高可能性的模型(JTT,JTTF或JTTDDCMUT选择了410个基因中的349个)。对于氨基酸树,我们还使用了伽马分布的现场速率。   我们使用Astral-II15 v.5.0.3根据所有410个基因来估算物种树。使用384个基因,每个基因至少包括一半的物种仅更改了3个低支持分支。我们使用多洛克斯自举77,78和星体的内置局部后验概率来估计分支支撑69并测试多构象79,这是根据基于最大样性基因树估计的物种树来绘制的。我们还使用星体(版本4.11.2)的内置功能来计算与物种树中每个分支一致的基因树的百分比,通过找到在分支周围定义的基因树四重奏的平均数量(从每一方面选择一个分类单元),这些基因树(从每一侧选择一个分类单元)与物种和迪斯科氏菌80的物种一致(图4)。在410个单拷贝基因树中的每个物种的中值表示为82.4%,其中有88.2%和67.1%的物种,分别为410%或410个单拷贝基因的组件分别为50%或75%。关于系统发育方法论的大量工作已经确定,基因和物种树估计对于缺失数据可能是可靠的,尤其是在密集的分类单元采样75,81,82的情况下。最近的论文甚至在丢失的数据下建立了统计一致性83。在串联分析84,85,86的背景下,也存在类似的鲁棒性证据。   所有超级分析均基于过滤的氨基酸和第一和第二密码子位置比对,其中包括至少一半的384个基因物种。(1)未经过滤的超级通用使用基因比对;(2)eudicot超级久期仅保留超元中的eudicot物种;and the (3) supermatrices with eight ‘rogue’ taxa removed (Dillenia indica, Tetrastigma obtectum, Tetrastigma voinierianum, Vitis vinifera, Cissus quadrangularis, ‘Spirotaenia’ sp., Ceratophyllum demersum and Prasinococcus capsulatus) that varied in placement among our full ASTRAL, supermatrix and plastid基因组分析。在分析中,支撑良好的分支顺序是稳定的(补充图6)。   使用审查V.3.0.1487进行了最大可能的超髓分析。与基因树分析相似,使用了所有最大样品的超级马trix分析,跨站点的速率异质性的伽马模型。为了更好地处理跨基因的模型异质性,我们将超元素分为分区。对于氨基酸比对,在基因树估计过程中为每个基因家族选择的蛋白质模型用于将基因分为分区,从而在每个替代模型中创建一个分区。对于核苷酸比对,我们使用RAXML v.8.1.2176估算了每个密码子位置(第一和第二位置)的GTR过渡速率参数和Alpha形状参数。然后,我们使用主成分分析将每个基因的最大样品参数值投影到二维平面88。我们在R90中执行了K-均值群集89,将密码子位置分为分区,选择k = 8,占变异的80%。可以在https://doi.org/10.5281/zenodo.3255100上找到源自核苷酸对齐的树木。   为了检查起始树对最后一棵最终树的可能性的影响,我们对较早版本的超级膜进行了初步分析。我们使用raxml v.8.1.21生成了九种不同的最大值,并使用fasttree-2 v.2.1.591使用了一个最大样品的起始树。然后,我们在每棵起始树上进行检查,并指出最终的最大样本得分。我们发现,在所有情况下,使用FastTree-2最大样本开始的审查最大样树的最大可能分数比使用最大偏见的启动树更好的最大样本得分更好。因此,对于所有SuperMatrix分析,我们使用FastTree-2来生成我们的初始起始树。从100个bootstrap复制中推断出最终树的分支的支持。   群体外的群体分类群用于植根所有使用核基因(所有星体和超级分析)估计的所有物种树。使用Rhodophyta作为外组植根于Viridiplantae的Plastome Supermatrix树。   对于每个转录组,我们使用Duppipe管道来构建基因家族并估计基因重复的年龄分布16,17。我们通过将GeneWise92比对与来自Phytozome93的25个植物基因组收集的最佳蛋白质的最佳蛋白质进行比较,翻译了DNA序列并鉴定了阅读框。对于所有Duppipe运行,我们使用蛋白质引导的DNA比对来对齐我们的核酸序列,同时保持阅读框。我们使用PAML与F3X4 Model94估计了基因家族系统发育中每个节点的同义差异(KS)。我们将基因复制的峰值确定为基因重复年龄分布(KS图)的直方图的古代WGD的证据。我们通过使用Kolmogorov – Smirnov的拟合test95进行比较,通过将其旁程年龄分布与模拟零值进行比较,从而鉴定了具有潜在WGD的物种。然后,我们使用混合物建模和手动策展来识别与潜在WGD一致的显着峰,并估计其中值旁系同源物KS值。使用R96中包装混合台的boot.comp功能中的似然比测试确定了显着的峰值。   为了将假定的WGD与谱系差异相关,我们估计了一对物种之间直系同源物的同义差异,这些物种可能会根据其系统发育位置和物种内部ks图中的证据共享WGD。我们使用RBH直系同源管道17来估计直系同源物的平均值和中位同义差异,并将其与推断的古多倍度峰的同义差异进行了比较。我们将直系同源物识别为互惠的最佳爆炸效果。使用蛋白质引导的DNA比对,我们使用PAML与F3X4 Model94估算了每对直系同源物的成对同义差异。如果WGD副母亲的同义词中位数的同义词比中位数的同义词的同义词差异,则WGD被解释为谱系差异后发生的。同样,如果WGD旁系同义词的同义差异比直系同义词的同义差异更古老,那么我们将这些WGD解释为共享。   为了推断和定位数据集中的假定WGD,我们使用了基因树排序和计数算法,即多键taxon paleopolyploidy搜索(MAP)工具18。对于每个地图分析,我们选择了至少两个可能在其祖先中共享WGD的物种,以及可能从系统发育范围内支撑WGD的谱系中的代表性物种。地图使用此给定的物种树来过滤核基因树的集合,以与物种树中每个节点的关系一致。使用此过滤的子树集,地图识别和记录节点,并具有后代分类群共享的基因重复。为了推断和定位潜在的WGD,我们比较了每个节点观察到的重复数量与背景基因出生和死亡率的无效模拟97,98。与无效模拟相比,在R90中实施的Fisher的精确测试用于鉴定基因重复大幅增加的位置(补充表5)。然后,将其重复的位置明显高于预期的位置与该位置的模拟WGD进行了比较。如果使用Fisher的精确测试与该模拟的WGD相一致,则如果与KS图和直系同源差异数据的推论一致,我们将位置确定为WGD。在某些情况下,地图推断出重要的重复,而在KS图或先前发表的研究中没有明显的特征。在这些情况下,我们认为这一事件是大量的基因重复。   每个地图分析均设计为将焦点WGD放置在物种树的中心附近,以最大程度地减少WGD推断中的误差。转录组或基因组组装,基因家庭聚类以及基因家庭系统发育的构建的错误可能会导致基因树的拓扑错误99。先前的研究表明,基因树的错误可能导致重复属材料向树根的偏差放置,并倾向树的尖端。因此,我们旨在将焦点节点放在系统发育中间的特定地图分析测试中。为了进一步减少基因重复推断的潜在误差,我们要求至少45%的间群分类单元出现在MAPS97分析的所有子树中。如果未满足群体类群数的最低要求,则将滤除基因子树并将其排除在我们的分析之外。分类单元的占用率的增加会导致更准确的重复推断,并减少将重复映射到物种树100,101中的一些偏见。为了维持每个地图分析的足够的基因树数,我们使用了六到八个分类单元的基因家庭系统发育量来推断古老的WGD。   对于每个地图分析,将转录组转化为氨基酸序列,使用thepipe Pipeline17。使用这些翻译,我们使用E = 1×10-5的临界值在数据集中进行了互惠蛋白BLAST(BLASTP)搜索。我们在默认参数下使用Orthofinder从这些爆炸结果中聚集了基因家族。102。使用自定义Perl脚本(https://bitbucket.org/barkerlab/maps),我们过滤了基因家族,这些基因家族在给定的地图分析中包含每个分类单元中至少一个基因副本,并丢弃了其余的正晶群集。我们使用Pasta73进行基因家族的自动对齐和系统发育重建。对于每个基因家庭系统发育,我们运行意大利面,直到我们达到三个迭代,而没有使用质心断裂策略提高似然评分。在意大利面的每次迭代中,我们使用mafft103构建了子集对齐,使用Muscle104将这些子集比对合并,并使用RAXML76进行树估计。每个软件包的参数是面食的默认选项(https://bitbucket.org/barkerlab/1kp)。我们为每个多物种核基因家族使用得分最佳的面食树来集体估计给定物种每个分支的共享基因重复的数量。   为了产生无效模拟,我们首先估计了使用WGDGC98(补充表5,11)的平均背景基因复制率(λ)和基因损失率(μ)。基因计数数据是从与每种物种树相关的Orthofinder102簇中获得的(补充表5)。仅使用跨越其各自物种树的根的基因簇估算λ和μ,该基因簇已被证明可以减少λ和μ的最大可能性估计98中的偏差。我们选择了最大基因家庭大小为100进行参数估计,这对于为节点状态的数值整合提供了上限。我们在每个物种树的根部基因的数量上提供了先前的概率分布,因此祖先基因家庭大小遵循移动的几何分布,平均值等于整个物种基因家族的平均基因数量(补充表5)。   然后,使用Genphylodata105中的guestreegen程序在每个地图树木中模拟基因树。对于每个物种树,我们模拟了3,000棵基因树,每个物种至少有一个尖端:λ和最大样本估计的1,000个基因树,估计为λ和μ的一半的1,000个基因树,以λ和μ为三倍。对于所有模拟,我们应用了相同的经验先验,用于估计λ和μ。然后,我们随机重新采样了1,000棵树,而没有从总基因树总池100次替换,以衡量每个节点处的子树百分比的不确定性。对于WGD的积极模拟,我们使用用于生成无效分布的方法模拟基因树(补充表5),但在测试分支上合并了WGD。在植物WGD后保留的副产品的先前经验估计平均为10%。为了在我们的地图分析中推断WGD保守,我们允许在模拟WGD之后保留至少20%的基因,以解释偏见的基因保留和损失。对于可能具有较低基因保留率的WGD,我们使用15%基因保留率使用了额外的模拟(补充表6)。   为了从转录组数据中稳健地估算基因家庭大小,我们需要克服三个主要挑战:(1)转录序列的碎片;(2)缺乏低丰度转录本;(3)由于组装重复和生物同工型,基因家族大小的过度预测。我们应对这些挑战如下。   用于构建域特异性剖面隐藏马尔可夫模型(HMM)的多个序列比对的长度为23至463个氨基酸。这些比对中有78%的比对比120个氨基酸短,而组装和翻译的转录本的84.6%的时间大于120个氨基酸。通过主要使用单个域来表征基因家族(补充表9),我们限制了从短读数据组装中转录本的碎片的影响。补充表9中给出了用于基因家庭分类和从已发表的工作107或基因家族专家获得的决策规则的HMM;23个基因家族中有12个是由单个“应该”规则分类的,其中23个基因家族是由XOR“应该”规则定义的,这也通过单个领域的存在对序列进行了分类,在23个基因家族中,有8个由更复杂的规则集进行了分类,其中包括“不应应该不应该”规则。唯一需要存在多个领域的基因家族是PPR基因家族的PLS子属。   为了解决基因空间采样的可能偏差,所有显示出低水平的转录组完整性的物种均已去除。从30个注释的植物基因组获得的转录组完整性值的最低值用作较低的排除限。我们删除了所有样本,其中使用默认设置和真核生物数据集作为查询数据库中丢失了超过42.5%的BUSCO31序列。   我们通过序列相似性和合并序列聚集了组装的蛋白序列,这些序列至少显示了99%的身份。为了检查应分别计数的合并序列的可能性,比较了1KP数据集和32个注释的植物基因组之间的不同身份截止。   扩展数据图3C,D显示了从1KP样品和32个注释的植物基因组获得的23个基因家族和13个基因家族的平均基因家庭大小。这些基因家庭大小显示出1KP样品和植物基因组之间的较高的Pearson相关性(r = 0.95),因此表明两种方法之间的线性关系。1KP数据集的结果平均较小2.3倍。尽管这是一个明显的低估,但估计值太小的比例因素相对一致,尤其是随着基因家庭尺寸的增加。   我们使用CDHIT v.4.5.7108,109来减少数据集中蛋白质序列重复的数量。我们评估了100%,99.5%,99%,95%和90%的序列身份阈值。1KP样品和32个参考基因组的剩余序列的百分比显示在扩展数据中。我们选择了99%的序列身份作为本研究使用的值。   基因家族专家提供了将蛋白质序列分类为具有特征HMM的基因家族的成员的知识。总共使用代表23个大基因家族的46个HMM用于估计被分析物种中的基因家庭大小。先前发表的14个基因家族的分类规则和HMMS 107已转换为HMMER3格式,并在本研究中使用。在补充表8中可以找到其余9个家庭的基因家庭分类规则和HMM。从PFAM数据库中获取HMM(2016年5月12日访问)或由Gene-family-fomenty专家提供(补充表8)。HMMER110(v.3.1b2)用于扫描过滤后的1KP数据集中的匹配项。在可用的地方,使用了聚集阈值;否则,将E-Value截止值用于指示域的存在。如果在补充表9中未注明E值,则应用10的默认E值。物种水平的结果列在补充表10s中。   为了评估基因家族是在谱系中扩展还是收缩的,我们比较了相邻进化枝和成绩中基因数的加权平均值(图4)。我们还检查了进化枝内的扩张和收缩,但没有发现任何统计学上的明显变化。将来自两个进化枝或等级的基因家庭成员的计数与R90中的P值阈值为1×10-6的Kolmogorov – Smirnov检验。在补充表7中列出了本研究中进行的测试。使用修剪算术平均值计算倍数变化,其中丢弃了顶部和底部5%的数据。仅报告仅报告大于1.5倍(或小于2/3)的扩张。   有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

本文来自作者[admin]投稿,不代表博钧号立场,如若转载,请注明出处:https://ws-game.cn/zlan/202601-1905.html

(32)

文章推荐

  • 去看大学的儿子和媳妇的文案 儿子媳妇带我去看电影文案

    去看大学的儿子和媳妇的文案作为大学生的父母,我对儿子和媳妇的成长和发展非常关心。我会不定期去看望他们,给予他们关心和支持。我希望他们在大学里能够认真学习,树立正确的人生观和价值观,注重学业,同时也要注重身心健康,发展个人兴趣爱好,建立良好的人际关系,为今后的生活打下坚实的基础。我会给予他们理解和鼓励

    2025年04月03日
    73305
  • 河南省交通投资集团下属都有什么公司 河南交通投资集团有限公司

    河南省交通投资集团下属都有什么公司是国有独资公司河南交通投资集团有限公司是由河南省人民政府作为出资人,委托省国资委负责资产监管,委托省交通运输厅负责行业管理、业务指导和人事管理,以省交通运输厅管理的河南高速公路发展有限责任公司为基础,整合省交通运输厅管辖的全部国有经营性资产而组成的国有独资公司。

    2025年04月06日
    231313
  • 自我修复的多光谱透明粘合剂肽玻璃

      尽管其液体样结构无序,但玻璃表现出固体样的机械性能1。玻璃材料的形成是通过玻璃化发生,防止结晶和促进无定形结构的形成。由于其独特的光学,化学和机械性能以及耐用性,多功能性和环境可持续性3。但是,在不损害其性质的情况下,工程玻璃材料具有挑战性为4,5,6。在这里,我们报告了通过与结构水的非共价交联

    2025年06月18日
    32322
  • 大连大学都有哪些(大连大学有哪几所)

    大连的大学都有哪些学校大连的大学主要包括以下学校:大连理工大学:在工程技术领域有着深厚的底蕴,其工程学科在全国名列前茅。大连海事大学:交通运输部直属的重点大学,中国著名的高等航海学府,被誉为“航海家的摇篮”,其交通运输工程学科入选了国家“双一流”世界一流学科建设名单。部分知名高校介绍:大连理工大学

    2025年06月22日
    29313
  • 刑天涡轮增压器真有效果

    您好,您是问刑天涡轮增压油器真有效果吗?很有效果的。其实涡轮节增压油器是很有用的,利用发动机自身进气的强力吸力,带动碟片高速旋转,那么在旋转的同时会形成一个旋风涡流,将大量的新鲜空气不断的进入发动机气缸内。这样一来,发动机瞬间气压和空气含氧量就会上升不少,可以有效地提供空燃比,不仅发动机的最大动力有

    2025年12月25日
    10308
  • 保时捷718有必要买吗

    保时捷是知行君最喜欢的一个汽车品牌,没有之一。当然,这样的喜欢不仅因为翻阅保时捷一页一页的历史,不仅出于对保时捷数十年如一风格的信仰,而是在一次又一次的试驾保时捷各种车型之时不断积累起来的好感。不少车迷认为,论性能保时捷的911是不如牛、马、勾这些顶级超跑的。但身边一位开法拉利458的朋友向知行君抱

    2025年12月28日
    6312
  • 上海火车站和上海火车南站是两个不同的站吗?

    上海火车站和上海火车南站是两个不同的站,上海虹桥站是高铁站。具体介绍如下:1、上海站上海站,又名上海新客站,位于上海市静安区秣陵路303号,毗邻上海长途客运总站,是中国铁路上海局集团有限公司管辖的一座特等站,是上海铁路枢纽的重要组成部分。上海站站房总面积为9.7万平方米,南广场面积为67000平方米

    2025年12月30日
    7311
  • 现代所有车型 轿车

    1、瑞纳级别:小型轿车。瑞纳是北京现代发布的一款小型家用车,是接小孩上学的不错选择。一方面,瑞纳的价钱比同级对手有优势,花不多的钱就可以买到一辆车。还有就是,合资品牌始终比自主品牌香,不过功能的多样性远不及自主品牌那么丰富。保养成本低是瑞纳的突出亮点,如果你是工薪阶层需要买车日常代步,那么瑞纳这款车

    2026年01月02日
    7300
  • 电动车充电十大禁忌?

    电动车充电十大禁忌有:1、切忌亏电存放。2、要定期检验蓄电池的状况。3、勿大电流放电,大电流放电容易导致硫酸铅结晶,从而损害电瓶极板的物理性能。4、掌握好充电时间,不要过充。5、防止蓄电池被高温暴晒雨淋。6、使用规定的充电器进行充电。7、电动车严禁在阳光下暴晒。温度过高的环境会使蓄电池内部压力增加而

    2026年01月04日
    7303
  • 护士资格证准考证是要打印彩色的吗 护师准考证打印时间

    护士资格证准考证是要打印彩色的吗  2015年护士资格证成绩通知单打印,黑白或彩色都可以,国家并没有要求。成绩通知单作为《护士执业资格考试成绩合格证明》的有效凭证,请妥善保管。  《护士执业资格考试成绩合格证明》是申请护士执业注册的有效证明,发放时间为8月中旬开始,合格考生须密切关注毕业学校或者当地

    2025年04月04日
    71323
  • 原神怎么去找响两侧遗迹中的钟 敲响两侧遗迹中的钟

    原神怎么去找响两侧遗迹中的钟首先,你要在原神的世界中找到响两侧遗迹,然后按照以下步骤:1.在遗迹的入口处,激活特殊的机关,这将会解锁钟声。2.找到里面相应的机关,触发它,这将会解锁钟声。3.找到遗迹中对应的机关,开启它,这将会解锁钟声。4.最后,找到合适的机关并激活它,这将会在遗迹的中心处发

    2025年04月11日
    75316
  • 1.4T涡轮增压和1.6L自吸发动机哪个更适合家用?

    手握15万的预算买车,很多人都会涉及到一个问题,那就是选择1.4T这种小排量涡轮增压发动机,还是选择1.6L这种自吸发动机,事实上,如果你的预算够,能上1.4T就上1.4T,因为从动力、燃油经济性等各个维度来说,1.4T发动机都是更好的产品。可能很多人没办法直观感受到,这两款发动机产品的差距,那么我

    2026年01月04日
    5311

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2026年01月11日

    我是博钧号的签约作者“admin”

  • admin
    admin 2026年01月11日

    本文概览:  没有使用统计方法来预先确定样本量。尽管基因组重复分析中包括的模拟确实包括从随机分布中绘制的模拟,但实验并非随机。在实验和结果评估中,研究人员并未对分配视而不见。   ...

  • admin
    用户011105 2026年01月11日

    文章不错《一千个植物转录组和绿色植物的系统基因组学》内容很有帮助