本文来自作者[admin]投稿,不代表博钧号立场,如若转载,请注明出处:https://ws-game.cn/wiki/202601-819.html
我们从公共和私人来源收集了总共9,188个全螺旋杆,包括4,210 H. Pylori和一个H. accinonychis基因组,在Enterobase50公开使用(截至2022年6月6日),来自Helicobacter Pylori Provadome Project255的1,011个样品(https://doi.org/10.5281/zenodo.10048320)51和350个样本,可在NCBI,Bigs and Figshare提供;来自世界各地不同地理区域的幽门螺杆菌新型基因组和一个新颖的H. acinonychis。新序列包括Y.Y.收集的2,133个分离株。在日本OITA大学医学院环境与预防医学系,A.Y.收集的伊朗244株菌株和来自世界各地的142个基因组,其中包括来自瑞典Kalixanda队列的89个基因组52。最后,马克·阿克特曼(Mark Achtman)贡献了1,096个全球DNA样品和1个H. accinonychis样品。这些序列也已在以下工作区中存放在肠群中:https://enterobase.warwick.ac.uk/a/108555。
来自中国北京的Novogene Co. Ltd.在Novogene Co.,Illumina Nova PE150平台上对Yamaoka实验室进行了测序,并使用Spades Genome Genome Assembler v.3.15.3(参考53)组装,通过下采样深度为100个碱基对,指定了1.6 Megabase和1.6 Megabase Pairs的读数。在从M.A.获得的这些样品中,使用位于瑞典哥德堡大学的Illumina Miseq平台或英国Novogene Co.,英国有限公司的Illumina Nova PE150平台进行了测序;在英国沃里克大学进一步测序了180个。在Karolinska Institutet和哥德堡大学的Illumina Miseq平台上对剩余序列进行了测序,并使用Bactpipe Pipeline(https://doi.org/10.5281/zenodo.4742358)54组装。
We then filtered out redundant genomes, defined as those sequences with SNP distance below 200, and removed low-quality genomes based on assembly fragmentation (over 500 contigs), coverage to the 26695 H. pylori reference strain (below 70%) and contamination (above 90% H. pylori) as predicted by Kraken v.2.1.2 (ref. 55), to obtain a final total of6,866个基因组对应于这项工作中首次报道的2,916个基因组和公开可用的3,950个基因组(补充表2)。
如前所述57,使用基于Mummer v.3.20(参考文献56)的算法来调用来自核心基因组(Core SNP)的单核苷酸多态性(CORE SNP)。我们首先使用Nucmer v.3.1将整个数据集的每个基因组序列与幽门螺杆菌26695参考应变(NC_000915.1)对齐。接下来,使用SNP点v.2.5.2来调用来自获得的全基因组比对的所有变体。最终使用VCFTools v.0.1.17提取了至少99%的基因组中存在的变体,总共产生了866,840个核心SNP。
要将人群分配到最终数据集中,我们首先定义了一个参考子集的285个菌株的参考子集,该子集始终在先前的报告中为15,33,58,59个幽门螺杆菌人群/亚群之一,我们通过在此子集中根据该子集的核心SNP进行了运行Finstructure32确认,并使用了在上面的carllo carlos and andations和200,000 Itions Carlos确认。然后将此子集视为供体面板,使用Chromopainter v.2(参考文献32)绘制整个数据集的每个样本。基因组由人群标记,该人群的基因组中最大的人群所描绘的基因组。
使用从全局对齐文件中提取的SNP执行整个数据集的PCA,遵循链接不平衡修剪以删除链接的SNP(窗口大小,50个碱基对;步骤尺寸,十个变体; R2阈值,0.1),使用软件PLINK(v.1.9)60。
使用R v.4.3.1和Python v.3.10.6以及R包GGPLOT2 v.3.3.6和Tidyverse V.1.3.2和Python Library numpy v.1.23.2使用R v.4.3.1和Python v.3.10.6进行分析和绘图(对于本节和以下内容)。
为了重建各种系统发育树,我们使用了与菌株26695对齐的编码序列(见上文)。在查看特定基因(VACA,尿素,UREB)时,首先是从单个菌株注释文件中获得的基因序列,然后使用mafft(v.7.505,option -auto)对齐61。扩展数据中显示的树是使用来自所有编码序列的SNP构建的。图1B,C和扩展数据中所示的树是使用来自未分化(B面板)和分化(C面板)基因的SNP构建的。补充无花果中显示的树木。1-4是使用特定基因的SNP构建的。另外,对于尿素(补充图3)和Ureb(补充图4),将序列分为两种类型,因为某些菌株具有两个基因的副本。副本类型的选择基于序列之间的相似性(基于树聚类和爆炸结果,特别是针对H. cetorum)。使用核苷酸序列的各种比对,使用FastTree Software62(v.2.1.10,option -nt)构建了最大样树。然后将树木基于通常用于幽门螺杆菌的给定外群:Hpafrica2和H. acinonychis,用于看整个基因组或未分化基因的树木,以及对差异化基因的树木菌株。对于那些看着各个基因的树木,我们使用了H. cetorum作为外群,这些基因是在将序列爆炸到甲状腺果螺旋体基因组之后选择的(见下文)。使用R软件包APE63(v.5.7-1,root函数)进行生根。使用R软件包GGTREE v.3.2.1进行绘图。
图2B所示的种群级树是通过邻居加入算法(R package ape,function nj)建造的,使用了在强壮和无处不在的生态植物中所代表的平均距离的矩阵。作为H. acinonychis(Hardy)的等效物,我们使用了HPAFRICA2的菌株。使用DIST.DNA函数(选项模型,RAW”)从APE R64软件包中计算菌株之间的距离。树木与HPAFRICA2/h根生。acinonychis作为外组,使用与以前相同的根函数。
为了进一步研究强硬和无处不在的菌株的种群结构,我们分析了295个由铬流蛋白分配给hspindigenossamerica,hspsiberia和hspindigennemerica H.幽门螺杆菌的菌株,该菌株是通过使用这些额定型号的200,000次核心的核心群体来制作的finallucture的官方群体,该官员使用了200,000个bunter和Markov Chablo Montepation的数据。295个菌株,仅考虑到99%以上样品中存在的那些变体。
考虑到Ecopsecies是一种性状,并使用了Hspsiberia和Hspindigennamerica的244种菌株,我们进行了GWAS,以确定哪些双重核心SNP与Ecospecies显着相关。尽管在HspineSamerica中也发现了强烈的菌株,但由于较少的Hardy菌株(49个),我们选择从GWAS分析中删除该种群。无处不在的菌株被编码为0(198个菌株),而Hardy菌株为1(46个菌株)。使用R软件包BUGWAS(V.0.0.0.9000)65进行GWAS,该65使用PCA考虑种群结构,然后是Gemma(v.0.93)进行GWAS分析。使用-log(P)= 5的标准显着性阈值,在285,792个核心双重SNP中,有4,609个与Hardy进化枝显着相关。
为了加强GWAS获得的结果,我们使用相同的菌株和SNP使用R包Popgenome66计算了无处不在和强壮的Ecopsecies之间的每个位置FST。如果GWAS与Ecopseces显着相关,我们认为SNP与Hardy和普遍存在的生态学有所不同(-log(p)> 10),并且基于其FST值(FST> 0.9)之间的高度区分。在核心双重SNP中,我们发现了2,568个分化的编码SNP和175个分化的基因间SNP。如果-LOG(P)<10和FS <0.5(265,621编码和8,950个基因间SNP),我们认为SNP是未分化的。所有其他SNP(7,756个编码和591个基因间的编码)均被视为中间。将SNP分为三类后,我们还根据26695基因组中存在的三种类型的基因:分化(100个基因;补充表3),其中包含至少五个区分SNP;未分化的(1,034个基因),只有未分化的SNP;以及其余的基因(443个基因),我们认为这是中间体的。
对于每个菌株,我们计算了具有耐寒等位基因(Hardy菌株中的主要等位基因)的分化位点的数量,并将该数量与无处不在的菌株和Hardy块的数量进行了比较。对于给定的菌株,到无处不在菌株的距离是该菌株序列与来自Hspindigenossamerica,hspsiberia和hspindigennemernemerica的无处不在菌株序列之间的平均差异。这些序列是在26695序列上排列的序列,并去除了间隙。
根据分化的SNP来定义强大的块:对于每个菌株,如果两个相邻的分化SNP具有相同的等位基因,并且是同一基因的一部分,我们认为它们是同一强硬块的一部分;否则,它们来自不同的块。
首先,我们使用26695的蛋白质组作为参考来估计每个样品的基因含量。然后,使用严格模式,将.GFF文件用作Panaroo的V.1.2.8(参考文献68)pangenome管道的输入,基于序列身份的序列身份合并了旁系同源性,长度差为0.90,核心阈值为0.95。为了进行此分析,使用了一个较小的数据集,该数据集由Hspsiberia和Hspindigennamerica的所有菌株组成(即包括所有耐寒菌株,来自同一人群中的所有无处不在菌株),以及来自其他种群的随机菌株(样本数据集的大小,721株)。然后,使用完整的链接方法在R v.4.3.1中使用PheatMap v.1.0.12软件包进行了基于Pangenes的存在/不存在的层次聚类。
为了检测各种螺旋杆菌属中的CAGA,VACA和尿素同源物,从Genbank或肠型酶(补充表4)中回收了非幽洁的螺旋杆菌基因组,并使用Prokka进行了注释。如果菌株/物种编码完整的尿素1b1(表明胃向胃癌),并且可用的元数据表明与人类或动物分离出来。来自非动物宿主的元基因组衍生的基因组被排除在外。使用Wikipedia鉴定出宿主饮食。
为了鉴定推定的同源物,使用具有70%序列身份的Panaroo和75%的序列覆盖率截止了幽门螺格分析(补充表2)(补充表2)。对于VACA,使用Mauve69和Tablet70和文献中的数据(例如H。cetorum71)补充了其他手动检查(例如,基因组不完整)。
我们使用H. cetorum作为分化基因的研究,特别是Cetorum菌株MIT99-5656(2023年2月14日从NCBI(https://wwwwwww.ncbi.nlm.nlm.nih.gov/dataa.gov/dataa-hub/genome/genome/gcf_0002595.1000259275.10下载)。假如。
在分化基因上进行了系统发育分析,其中包括H. cetorum基因组。首先,我们使用hardy的爆炸(Blastn V.2.11.0)72获得了H. cetorum Gene序列,每个分化基因的h. to h. cetorum Genome的基因组的无处不在。对于那些至少返回一击的基因,使用FastTree生成了基因的系统发育树,并植根于H. cetorum序列(见上文)。
使用点图很容易看到明显的结构变化,包括倒置,间隙,重复和基因簇重排。为了调查基因组结构相似性和Hardy和无处不在的群体之间的差异,我们使用了Gepard Program73(v.1.40 JAR文件,来自https://github.com/univiecube/gepard)来制作点图。考虑了不同的比较:耐寒与耐寒,耐寒,无处不在,无处不在的与无处不在的人。从NCBI GenBank(https://www.ncbi.nlm.nih.gov/genbank/)下载了公开可用的基因组序列。选择Gepard内部DNA取代矩阵(EDNA.MAT)以生成比对和图。较低的颜色限制为50,以减少噪声并强调重要区域。窗口大小和单词长度分别为0和10。
为了确定特定类型的基因在100个高度分化的基因中是否代表过多,我们使用网站David74进行了功能富集分析。由于缺乏唯一的标识符,因此除去了三种假设蛋白。选择的基因列表及其类别列表中选择的基因背景集(请参见补充表3)进行比较)是基于幽门螺杆菌26695中存在的那些基因。在本杰米尼校正后,在多个测试后,认为该术语在p <0.05时被认为是显着的。
对于数据集中的每个菌株,我们使用Yang和Nielsen方法(YN00)在PAML(v.4.9)软件75,76中估计其DN/DS和DS值为外部群体,而ANI是用FastAni(v.1.34(ref。77))计算的。图中所示的DN/DS,DS和ANI值在与每个不同的外群菌株的成对比较中进行平均。从所有菌株中除去了至少一个菌株中停止的密码子,并使用与参考基因组对齐的编码序列(26695,全局对齐)对DN/DS和ANI值进行成对计算。此外,我们将未分化和分化的编码序列之间的值分开。我们使用了三个不同的外群:HPAFRICA2,H。acinonychis(Hardy菌株)和幽门螺杆菌Hardy菌株,图中未显示的外部人群/生态(仅“局灶性”菌株的种群/生态)。
Helicobacter基因组学联盟包括来自几个发展中国家的胃肠病学家和研究人员。其目的是表征世界各地人群中旋律杆菌的遗传多样性及其与胃病的相关性。在孟加拉国,不丹,刚果DR,多米尼加共和国,印度尼西亚,日本,缅甸,尼泊尔,尼泊尔,斯里兰卡,泰国和越南,所有这些都由当地研究人员(Oita University的Consortium and Phd学生的联盟和博士生)进行内窥镜检查的准备。获得了所有队列的人类胃活检材料的道德许可,包括参与个人的知情同意。内窥镜检查由当地医生和Y.Y.进行。在OITA大学进行了细菌,DNA提取,下一代测序和基本遗传分析的培养,在OITA大学进行了培养,主要是由博士生在几个国家中当地招募的博士生进行的,并且是本文的合着者。此外,参与该财团的医生和科学家正在积极参与研究过程,并保持最新的发现。这项培训和传播计划将有助于从日本传播基因组学知识和治疗胃病的最佳实践,那里在减轻胃癌和其他疾病的负担方面取得了很大的成功,到其他不太发达国家。研究方案(伊朗菌株)已获得伊朗德黑兰Shahid Beheshti医学科学大学胃肠病学和肝病研究所的机构道德审查委员会(no。Ir.sbmu.rec.rec.rec.rec.1395.878)批准。所有实验均根据机构建议的相关指南和法规进行。在采集样本之前,从所有已入学的主题和/或其法定监护人那里获得了书面知情同意书。以前已经详细介绍了用于生成新西伯利亚基因组的DNA的采样15。其余的新基因组也来自先前收集的幽门螺杆菌DNA(例如,参考文献33,34,59)。瑞典Kalixanda基因组的研究方案得到了Umeå大学伦理委员会的批准,该研究是根据赫尔辛基宣言进行的。微生物学的科学通常并未将人类衍生的微生物视为属于他们来自的人,并且从细菌病原体的遗传序列进行了常规发表,从而实现了许多公共卫生应用。然而,在一些细菌中,幽门螺杆菌是其中之一,人类和细菌种群结构之间的紧密耦合使人们从细菌数据中对人类宿主的意外推断出来,这可能远非获得同意以获取样品采集时所设想的用途。我们将努力确保未来研究的设计围绕着他们所执行的社区的需求建立,并且同意程序提供了有关如何使用样本的准确信息,并得到了最近的科学进步的告知。我们对高度鲜明的耐寒性生态的发现对许多已知具有高胃病负担的土著社区中受感染的个体具有潜在的影响。但是,目前未知的致病性概况是单一感染或混合感染。与信任行为守则保持一致 我们正在与在隔离菌株的社区工作的研究人员保持联系和建立联系,以咨询这些社区的代表,以确定和适应他们在这些菌株功能表征的协作研究中的利益,包括与胃病的关联。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
赞 (32)
评论列表(3条)
我是博钧号的签约作者“admin”
本文概览: 我们从公共和私人来源收集了总共9,188个全螺旋杆,包括4,210 H. Pylori和一个H. accinonychis基因组,在Enterobase50公开使用(截至2...
文章不错《幽门螺杆菌的古老生态》内容很有帮助