小鼠脑的DNA甲基化图集以单细胞分辨率

  所有使用活动物的实验程序均由SALK Institute动物护理和使用委员会批准,该协议编号为18-00006。成人(p56)C57BL/6J雄性小鼠购自杰克逊实验室,并在12小时的深色灯光周期中维持在Salk Animal屏障设施中,最多10天。在冰冷的解剖缓冲液中,从额头上从额头上萃取大脑并切成冠状,并在含有2.5 mm kcl,0.5 mm CaCl2,7 mm mgcl2,7 mm mgcl2,1.25 mm naH2pO4,1.25 mm naH2pO4,110 mm soscrose,110 mm铜,10 mm glucose和10 mm glucose和10 mm glucose和10 mmmmmmmmn的Co中提取冠状。在开始切片程序之前,将溶液保持冰冷,并用95%O2燃烧至少15分钟。将切片保存在包含冰冷解剖缓冲液的12孔板中(最多20分钟),直到解剖由配备SDF PLAPO 1XPF物镜的SZX16 Olympus显微镜帮助。Olympus Cellens维度1.8用于图像采集。根据Allen Brain参考Atlas CCFV316,将每个大脑区域从切片中沿前后轴进行解剖(有关每个冠状切片的后视图,请参见扩展数据图1)。在解剖过程中将切片保存在冰冷的解剖培养基中,并立即将其冷冻在干冰中,以进行后层池和核产生。对于细胞核分离,将每个解剖区域从6-30只动物中汇总,并为每个切片处理两个生物复制品。   如先前所述1,6分离核。通过与Alexa Fluor 488偶联的抗Neun抗体(MAB377X,Millipore)和1:1,000在4°C下在4°C下在4°C稀释1 h的抗体488浓度的抗体抗体(MAB3777X,Millipore)通过1:1,000稀释的Alexa Fluor 488偶联抗体稀释1,000个稀释型,在4°C下孵育1小时,将分离出的核标记。使用85μm喷嘴的BD涌入分把在22.5 psi鞘压力下进行单核的粉丝。将单核分类的384孔板的每个孔都用2μL蛋白酶K消化缓冲液(1μLM-Digestion缓冲液(Zymo,d5021-9),0.1μL20μgμgμl-1蛋白酶K和0.9μLH2O)进行了预加载。通过将护套流动到空板的孔中并根据液滴位置进行调整来进行接收384孔板的比对。选择单细胞(单滴单)模式以确保排序的严格度。对于每个384孔板,用neun+(488+)栅极和Neun-(488-)栅极对1-22列进行排序,达到Neun+与Neun-nuclei的比率为11:1。BD涌入软件v1.2.0.142用于选择细胞群体。   先前针对SNMC-Seq21,2进行了详细的亚硫酸盐转化和库制备方法。使用150 bp配对的末端模式,使用Illumina Novaseq 6000仪器测序了由小鼠脑组织产生的SNMC-SEQ2和SN-M3C-SEQ(见下文)。Freedom Evoware v2.7用于库准备,Illumina Miseq控制软件v3.1.0.13和Novaseq 6000控制软件v1.6.0/实时分析(RTA)v3.4.4用于测序。   如前所述4进行了单核甲基-3C测序(SN-M3C-Seq)。简而言之,从背侧齿状回(DG-1和DG-2,补充表2),腹侧齿状回(DG-3和DG-4)(DG-3和DG-4),背hip(Ca-1和ca-2),以及腹侧hip(Ca-3和Ca-4)中的相同批次的解剖组织样品,是液体nitro的。然后使用砂浆和杵冷冻时将样品粉碎,然后在DPBS中立即用2%甲醛固定10分钟。将样品用0.2 M甘氨酸淬灭,并在-80°C下储存,直到准备进一步加工。如前所述4分解核后,将核与Nlaiii消化过夜,并连接4 h。然后用HOECHST 33342(但不用Neun抗体染色)将核染色,并通过0.2-μm滤波器过滤,并与SNMC-SEQ2样品相似。使用SNMC-Seq2方法生成库。   这项研究中的小鼠脑解剖和解剖结构的命名遵循艾伦小鼠脑公共坐标框架(CCF)16。根据Allen CCF的层次结构,我们使用了一个三级空间区域组织来促进描述:(1)例如,主要区域,例如等皮层,髋关节;(2)等级内的子区域,例如MOP,SSP;(3)在MOP内进行解剖区域,例如MOP-1和MOP-2。补充表1包含本研究中使用的所有缩写的全名。所有大脑图像均基于Wang等人的16和©2017 Allen Brain Science Institute创建。艾伦大脑参考地图集。可从:http://atlas.brain-map.org/获得。   以下方法部分分为三个阶段。第一阶段“映射和特征生成”描述了单细胞甲基化特异性数据格式的映射和生成文件。第二阶段“与聚类相关”,描述了聚类,识别DMG或集成其他数据集,这些数据集发生在单细胞级别。第三阶段是“细胞类型特异性调节元件”,描述了使用簇合并甲基甲基甲基甲基组的推定细胞类型特异性调节元素的鉴定。其他特定于图的分析主题可能会结合一个以上阶段的结果。   我们为我们组开发的所有基于1,2,37的基于单一的基于 - 甲基 - 甲基群的技术实施了一条多功能映射管道YAP(https://hq-1.gitbook.io/mc/)。该管道的主要步骤包括:(1)将FASTQ文件删除到单个单元格中;(2)读取水平质量控制(QC);(3)映射;(4)BAM文件处理和QC;(5)最终分子剖面生成。先前描述了SNMC-SEQ2的五个步骤的详细信息2。我们将所有读数映射到小鼠MM10基因组。我们计算了映射后每个细胞中两组基因组区域的甲基胞嘧啶计数和总胞嘧啶计数。MM10基因组的非重叠染色体100-KB仓(由“ BedTools MakeWindows -W 100000”产生)进行聚类分析和ANN模型训练,并且使用小鼠Gencode VM22定义的基因身体区域±2 Kb用于聚类和集成其他模态。   如先前所述4,在金牛座-MH管道后映射甲基甲基测序读数4。具体而言,对Illumina适配器进行了修剪,然后在两侧修剪了另外10 bp。然后,使用Bowtie的Bismark将R1和R2读数分别映射到MM10基因组。收集了未封闭的读数,并将其分为较短的读数,代表前40个bp,最后40 bp和原始读数的中间部分(如果修剪后读取长度> 80 bp)。使用Bowtie的Bismark再次映射了分裂读数。用mapq读取 <10 were removed. The filtered bam files from split and unsplit R1 and R2 reads were deduplicated with Picard and merged into a single bam file to generate the methylation data. Methylpy (v1.4.2)38 was used to generate an ALLC file (base-level methylation counts) from the bam file for every single cell. We paired the R1 and R2 bam files where each read-pair represents a potential contact to generate the Hi-C contact map. For generating contact files, read pairs where the two ends mapped within 1 kbp of each other, were removed.   Cell filtering. We filtered the cells on the basis of these main mapping metrics: (1) mCCC level <0.03; (2) overall mCG level >0.5; (3) overall mCH level <0.2; (4) total final reads >500,000; and (5) Bismark mapping rate >0.5。在过滤过程中还产生和评估了其他指标,例如基因组覆盖率,PCR重复速率和指数比。但是,在以1-5的主要指标删除异常值后,发现其他异常值很少。注意,MCCC水平用作硫酸硫酸硫酸非转化率上限的估计。   功能过滤。通过去除平均总胞嘧啶基呼叫的垃圾箱过滤100 kb的基因组箱特征 <250 (low coverage) or >3,000(异常高覆盖区域)。与编码BlackList39重叠的区域也被排除在进一步分析之外。   甲基化水平的计算和归一化。对于CG和CH甲基化,来自甲基胞嘧啶和总胞嘧啶基质的甲基化水平计算包含两个步骤:(1)(1)β-二比分布的先前估计,以及(2)每个细胞的后验计算和归一化。   步骤1:对于每个单元,我们计算了原始甲基胞嘧啶水平(MC/COV)的样品平均值和方差,其中COV是总胞嘧啶碱基覆盖率,而MC是每个序列上下文(CG或CH)的甲基胞嘧啶碱基覆盖率。然后,使用矩的方法估算β分布的形状参数(α,β):   该方法为每个细胞使用不同的先验,用于不同的甲基化类型,并使用更多信息(较高的原始方差)将较弱的先验使用。   步骤2:然后,我们计算后验:对于每个单元格中的所有垃圾箱。就像单细胞RNA-seq分析中的百万读数(CPM)归一化一样,我们通过细胞的全局平均甲基化,M =α/(α+β)将这种后甲基化归一化。因此,归一化后,所有具有0 COV的后值将其恒定值为1。所得的归一化MC级矩阵不包含NA(不可用)值,并且COV较低的特征往往具有接近1的平均值。   选择高度可变功能。使用scanpy.pp.highly_variable_genes函数从scanpy 1.4.3 package40选择了高度可变的甲基化特征。简而言之,scanpy.pp.highly_variable_genes功能通过与落入给定垃圾箱的基因平均基因表达的基因分散体的平均分散体缩放来归一化基因的分散。在我们的修改方法中,我们认为平均甲基化水平和特征的平均COV(100 kb箱或基因)都可能影响MC水平分散。我们将落入平均值和COV的组合箱中的特征分组。然后,我们将每个均值-COV组内的色散标准化。分散归一化后,我们选择了基于标准化分散的前3,000个特征进行聚类分析。   不同MC类型的尺寸降低和组合。对于每个选定的功能,将MC级别缩放到单位方差和零均值。然后,我们对缩放的MC级矩阵进行了主成分分析(PCA)。通过使用肘方法检查每个PC的方差比,选择主组件(PC)的数量(PC)。然后将CH和CG PC连接在一起,以在聚类和多种学习中进行进一步分析(补充表6,用于PCA和聚类分析的参数)。   在串联PC上共识聚类。我们使用基于k-nearest邻居(KNN)图的多个leiden clustering41的共识聚类方法来说明莱顿聚类算法的随机性。在MCH和MCG矩阵中选择了PCA的主要PC之后,我们将PC串联在一起,使用euclidean距离的Scanpy.pp.neighbours构造KNN图。给定的固定分辨率参数,我们在KNN图上重复了Leiden聚类的300次,并将这些群集分配组合为新功能矩阵,其中每个单个Leiden结果都是一个功能。然后,我们使用Scikit-Learn软件包中使用的异常值DBSCAN算法来使用锤子距离在Leiden特征矩阵上进行共识聚类。DBSCAN的不同EPSILON参数遍历以生成共识群集版本,其簇数量从最小值到最大群集数量,在多个Leiden运行中观察到的群集数量。每个版本都包含一些离群值;这些通常分为三类:(1)位于两个簇之间的细胞具有梯度差而不是透明边界,例如,IT层的边界;(2)读取数量少的细胞潜在地缺乏基本特征的信息来确定特定群集;(3)具有大量读数的细胞。类型1和2异常值的数量取决于分辨率参数,并在“分辨率参数”部分的选择中进行了讨论。细胞过滤后,3型离群值非常罕见。然后,下面的监督模型评估确定了最终共识群集版本。   对聚类分配的监督模型评估。我们从Scikit-Learn软件包中进行了交叉验证(RFECV)42个过程,以评估每个共识聚类版本的群集可重复性。我们首先从此过程中删除了异常值,然后将10%的单元格作为最终测试数据集。对于其余90%的单元格,我们使用十倍的交叉验证使用输入PC作为特征和Sklearn.Metrics.balanced_accuracy_score43作为评估得分来训练多类预测模型。多类预测模型基于Imblearn软件包中的BalancedRandomForestClassifier,该软件包说明了分类不平衡问题44。训练后,我们使用10%测试数据集使用Balanced_Accuracy_score的分数来测试模型性能。我们将最佳模型和相应的聚类分配保留为最终聚类版本。最后,我们使用此预测模型来预测离群值的集群分配。我们以预测概率> 0.3挽救了异常值,否则将其标记为异常值。   可视化的流形学习。在每一轮聚类分析中,使用Scanpy40软件包的实现,在PC矩阵上运行T-SNE45,46和UMAP17嵌入。来自两种算法的坐标在补充表5中。   分辨率参数的选择。选择莱顿算法的分辨率参数对于确定簇的最终数至关重要。我们通过三个标准选择了分辨率参数:(1)。异常值的一部分 <0.05 in the final consensus clustering version; (2) the ultimate prediction model accuracy >0.9;(3)每个群集≥30的平均单元,它控制着簇的大小以达到进一步的表观基因组分析所需的最小覆盖范围,例如DMR调用。这三个标准都阻止了集群的过度分裂。因此,我们选择了使用网格搜索符合标准的最大分辨率参数。   单元格(1级聚类)注释。我们根据Neun-栅极起源和低全局MCH馏分对非神经元细胞注释。鉴于CH甲基化和基因表达之间的强抗相关性,我们在基因体上使用了pan兴奋性标记的基因±2 kb(例如SLC17A7和SV2B)的低ch-甲基化,以及诸如GAD1和GAD2之类的泛抑制标记,以分别注释兴奋性和抑制性细胞类别。   主要类型(2级)和亚型(第3级)注释。我们使用了众所周知的标记基因的基因体±2 kb降低甲基化(或非神经元的低-CG-甲基化)和解剖信息来注释神经元和非神经元簇。所有群集标记基因均在补充表7中列出,以及群集名称的描述,对标记基因信息的引用以及数据浏览器的URL。基于先前研究中报道的众所周知的标记基因,对主要细胞类型进行了注释。19,31,47,48,49。只要有可能,我们就将这些群集命名为规范名称(例如IT-L23,L6B)或使用反映集群特定空间位置的描述性名称(例如,EP,CLA,IG-CA2)。对于子类型,我们通过其母体主要类型名称命名群集,然后是子类型标记基因名称。   我们使用成对策略在同一轮分析中计算每对簇的DMG。我们使用了所有蛋白质编码和长的非编码RNA基因的基因体±2 kb区域,这些基因具有来自小鼠Gencode VM22的证据1或2的基因。我们使用了按全局MCH水平归一化的单细胞水平MCH级分(如以上聚类步骤中的“甲基化水平的计算和归一化”)来计算所有神经元簇之间的标记。我们使用按全局MCG水平归一化的MCG分数分别比较了非神经元簇。对于每个成对比较,我们使用Wilcoxon秩和测试来选择具有显着降低的基因(低乙基化)。根据调整后的P选择标记基因 < 10−3 with multitest correction using the Benjamini–Hochberg procedure, delta-normalized methylation level change <−0.5 (hypo-methylation) and area under the receiver-operating curve (AUROC) >0.8. We required each cluster to have ≥5 DMGs compared to any other cluster. Otherwise, the smallest cluster that did not meet this criterion was merged to the closest cluster based on Euclidean distance between cluster centroids in the PC matrix used for clustering. Then the marker identification process was repeated until all clusters found enough marker genes.   On the basis of the consensus clustering steps described above, we used an iterative approach to cluster the data into three levels of categories. In the first level, termed CellClass, clustering analysis is done using all cells and then manually merged into three canonical classes: excitatory neurons, inhibitory neurons, and non-neurons based on marker genes. Within each CellClass, we performed all the preprocessing and clustering steps again to obtain clusters for the MajorType level using the same stop criteria. Furthermore, within each MajorType, we obtained clusters for the SubType level. All clusters’ annotations and relationships are presented in Supplementary Table 7.   To build the taxonomy tree of subtypes, we selected the top 50 genes that showed the most significant changes for each subtypes’ pairwise comparisons. We then used the union of these genes from all subtypes and obtained 2,503 unique genes. We calculated the median mCH level of these genes in each subtype and applied bootstrap resampling-based hierarchical clustering with average linkage and the correlation metric using the R package pvclust (v.2.2)50.   We defined the impact score (IS) to summarize pairwise comparisons for two subtype groups, where one group, A, contains M clusters and the other group, B, contains N clusters. For each gene or motif, the number of total related pairwise comparisons is M × N, the number of significant comparisons with desired change (hypo-methylation for gene or enrichment for motif) is a in group A and b in group B. The IS is then calculated as  and for the two directions. For either group, IS ranges from −1 to 1, and 0 means no impact, 1 means full impact and −1 means full impact in the other group (Extended Data Fig. 7e).   We explored two scenarios using the IS to describe cluster characteristics (Extended Data Fig. 7e). The first scenario is considering each pair of branches in the subtype taxonomy tree as comprising group A and group B. Thus, the IS can quantify and rank genes or motifs to the upper nodes based on the leaves’ pairwise comparisons (Fig. 3d–f). The second scenario summarizes the total impact for specific genes or motifs regarding the taxonomy tree based on the calculation in the first scenario (Extended Data Fig. 7f–k). In a subtype taxonomy tree with n subtypes, the total non-singleton node was n − 1, and each node i had a height hi and associated ISA for one of the branches (ISB = −ISA). The node-height-weighted total IS (IStotal) was then calculated as:   The larger total IS indicated that a gene or motif shows more cell-type-taxonomy-related significant changes. The total IS can also be calculated in a sub-tree or any combination of interests to rank genes and motifs most related to that combination (See ‘Figure-specific methods’ for Fig. 5 regarding calculating layer and region total IS from the same tree).   A portion of the same brain tissue sample used in this study for methylome profiling was also processed using snATAC-seq in a parallel study of chromatin accessibility3. The final high-quality snATAC-seq cells were assigned to 160 chromatin accessibility clusters (a-types). The snATAC-seq-specific data analysis steps are described in Li et al.3. Here, we performed cross-modality data integration and label-transferring to assign the 160 a-types to the 161 methylome subtypes in the following steps:   We used the overlap score to match a-type and methylome subtypes. The overlap score, range from 0 to 1, was defined as the sum of the minimum proportion of samples in each cluster overlapped within each co-cluster52. A higher score between one methylome subtype and one a-cluster indicates they consistently co-clustered within one or more co-clusters. Besides matching clusters in integration analysis, the overlap score was also used in two other cases: (1) to quantify replicates and region overlaps over methylome subtypes (Extended Data Fig. 2e–g); and (2) to quantify the overlap of each L5-ET subtype overlapping with ‘soma location’ and ‘projection target’ labels from epi-retro-seq cells (Extended Data Fig. 5j) through integration with the epi-retro-seq dataset.   After clustering analysis, we used the subtype cluster assignments to merge single-cell ALLC files into the pseudo-bulk level and then used methylpy (v1.4.2)38 DMRfind function to calculate mCG DMRs across all subtypes. The base calls of each pair of CpG sites were added before analysis. In brief, the methylpy function used a permutation-based root mean square test of goodness of fit to identify differentially methylated sites (DMS) simultaneously across all samples (subtypes in this case), and then merge the DMS within 250 bp into the DMR. We further excluded DMS calls that have low absolute mCG level differences by using a robust-mean-based approach. For each DMR merged from the DMS, we ordered all the samples by their mCG fraction and calculated the robust mean m using the samples between 25th and 75th percentiles. We then reassigned hypo-DMR and hyper-DMR to each sample when a region met two criteria: (1) the sample mCG fraction of this DMR is lower than (m − 0.3) for hypo-DMR or (m + 0.3) for hyper-DMR, and (2) the DMR is originally a significant hypo- or hyper-DMR in that sample judged by methylpy. DMRs without any hypo- or hyper-DMR assignment were excluded from further analyses. On the basis of these filtering criteria, we estimate the false discovery rate of calling DMRs is 2.7% (Supplementary Note 2, Extended Data Fig. 6).   We performed enhancer prediction using the REPTILE53 algorithm. REPTILE is a random-forest-based supervised method that incorporates different epigenomic profiles with base-level DNA methylation data to learn and then distinguish the epigenomic signatures of enhancers and genomic background. We trained the model in a similar way as in the previous studies8,53, using CG methylation, chromatin accessibility of each subtype and mouse embryonic stem cells (mouse ES cells). The model was first trained on mouse ES cell data and then predicted a quantitative score that we termed enhancer score for each subtype’s DMRs. The positives were 2 kb regions centred at the summits of the top 5,000 EP300 peaks in mouse ES cells. Negatives include randomly chosen 5,000 promoters and 30,000 2-kb genomic bins. The bins have no overlap with any positive region or gene promoter8.   Methylation and chromatin accessibility profiles in bigwig format for mouse ES cells were from the GEO database (GSM723018). The mCG fraction bigwig file was generated from subtype-merged ALLC files using the ALLCools package (https://github.com/lhqing/ALLCools). For chromatin accessibility of each subtype, we merged all fragments from snATAC-seq cells that were assigned to this subtype in the integration analysis and used deeptools bamcoverage to generate CPM normalized bigwig files. All bigwig file bin sizes were 50 bp.   We used 719 motif PWMs from the JASPAR 2020 CORE vertebrates database54, where each motif was able to assign corresponding mouse transcription factor genes. The specific DMR sets used in each motif-enrichment analysis are described in figure specific methods below. For each set of DMRs, we standardized the region length to the centre ±250bp and used the FIMO tool from the MEME suite55 to scan the motifs in each enhancer with the log-odds score P <10−6 as the threshold. To calculate motif enrichment, we use the adult non-neuronal mouse tissue DMRs10 as background regions unless expressly noted. We subtracted enhancers in the region set from the background and then scanned the motifs in background regions using the same approach. We then used Fisher’s exact test to find motifs enriched in the region set and the Benjamini–Hochberg procedure to correct multiple tests. We used the TFClass56 classification to group transcription factors with similar motifs.   To calculate DMR–DMG partial correlation, we used the mCG fraction of DMRs and the mCH fraction of DMGs in each neuronal subtype. We first used linear regression to regress out variance due to global methylation difference (using scanpy.pp.regress_out function), then use the residual matrix to calculate the Pearson correlation between DMR and DMG pairs where the DMR centre is within 1 Mb of the TSSs of the DMG. We shuffled the subtype orders in both matrices and recalculated all pairs 100 times to generate the null distribution.   After merging the chromatin contacts from cells belonging to the same type, we generated a .hic file of the cell-type with Juicer tools pre. HICCUPS57 was used to identify loops in each cell type. The loops from eight major cell types were concatenated and deduplicated and used as the total samples for differential loop calling. A loop-by-cell matrix was generated, in which each element represents the number of contacts supporting each loop in each cell. The matrix was used as input of EdgeR to identify differential interactions with ANOVA tests. Loops with FDR <10−5 and minimum–maximum fold change >2 were used as differential loops. Note that the abundance of cell types is highly variable, leading to different coverages of contact maps after merging all the cells from each cell type. Since HICCUPS loop calling is sensitive to the coverage, more loops were identified in the abundant cell types (for example, 12,614 loops were called in DG, containing 1,933 cells) compared to the less abundant ones (for example, 1,173 loops were called in MGE, containing 145 cells). Therefore, we do not compare the feature counts related to the loops across cell types directly in our analyses.   3D model of dissection regions (Fig. 1b–e). We created in silico dissection regions based on the Allen CCF16 3D model using Blender 2.8 that precisely follow our dissection plan. To ease visualization of all different regions, we modified the layout and removed some of the symmetric structures, but all the actual dissections were applied symmetrically to both hemispheres.   Calculating the genome feature detected ratio (Extended Data Fig. 2a). The detected ratio of chromosome 100-kb bins and gene bodies is calculated as the percentage of bins with >20总胞嘧啶覆盖率。非重叠的染色体100-kb垃圾箱是由Bedtools Makewindows-W 100000生成的;基因体由Gencode VM22定义。   与Epi-Retro-Seq L5-ET细胞的整合(图2G – J,扩展数据图5G – J)。Epi-Retro-Seq是一种基于SNMC-Seq2的方法,结合了逆行AAV Labelling22。Epi-Retro-seq数据集收集的L5-ET细胞的非重叠染色体100-kb bin基质与本研究中的所有L5-ET细胞串联,用于共聚类和嵌入,如“聚类相关方法”中所述。然后,我们计算了本研究中亚型与Epi-Retro-Seq细胞的“ SOMA位置”或“投影目标”标签之间的OS。第一个OS有助于量化两项研究之间的空间位置的一致性。第二个操作系统使我们能够在这项研究中将亚型的投影靶标算。   成对DMR和基序富集分析(图3C,F)。通过比较所有亚型,如“细胞类型的调节元件”中所述鉴定了总亚型DMR。然后,如果DMR为:(1)仅在其中一种亚型中,我们将DMR分配给每个亚型对。(2)两个亚型之间的MCG分数差异> 0.4。每个亚型对与两组成对DMR相关联。我们在每个DMR集中使用另一组作为背景的“细胞类型调节元件”中描述的基序 - 富集分析。然后使用富含任一方向的图案计算影响评分,并与分类学上的上点相关。   与基因组区域重叠的EDMR(图4B)。在Li等人3中鉴定出簇特异性的SNATAC-SEQ峰。我们使用床托合并来汇总总非重叠峰区域,而床托相交以计算峰和EDMR之间的重叠。在HE等人中,使用甲基塞克58在HE等人中鉴定了发育中的前脑和其他组织FEDMR。图4B中使用的所有基因组特征均定义为He等人3,除了使用更新的MM10 CGI区域和ReponMaster转换元素列表(UCSC Table浏览器于2019年10月9日下载)。   基因 - 增强剂景观的热图(扩展数据图8E)。通过> 0.3的EDMR – Gene相关性选择每个基因的EDMR。扩展数据中的热图的部分通过(1)本研究中的161个亚型中的每个EDMR的MCG分数收集。(2)每个EDMR的SNATAC-SEQ子类型级片段每千座映射片段(fpkm)在相同的亚型订单中。如“与聚类相关方法”中所述的集成结果合并了亚型SNATAC轮廓。(3)从胚胎第10.5天(e10.5)到p0的十个发育时间点,前脑组织中每个EDMR的MCG分数(来自He等人的数据);(4)每个EDMR的H3K27AC FPKM在7个从E11.5到P0的时间点中的7个开发时间点(Gorkin等人的数据);(5)p56额脑组织中每个EDMR的H3K27AC FPKM(Lister等人的数据);(6)EDMR使用BedTools相交与前脑FEDMR重叠。   与染色体相互作用的细胞嵌入(图4E)。Schicluster60用于生成SN-M3C-Seq细胞的T-SNE嵌入。具体而言,为每个细胞的每个染色体生成以1-MB分辨率的触点矩阵。然后,通过线性卷积将矩阵平滑,板= 1,然后随机行走,重新启动概率= 0.5。将平滑地图上最强相互作用的最强相互作用的前20个百分点提取,将二进化并用于PCA。前20个PC用于T-SNE。   IT层解剖区域DMG和DMR分析(图5A – C)。为了收集足够的细胞进行解剖区域分析,我们仅使用了IT神经元的主要类型(对应于L2/3,L4,L5和L6)。我们根据层解剖区域将细胞分组分组,并保持> 50个细胞的组以进行进一步分析(扩展数据图9b)。我们进行了成对的DMG,DMR和基序 - 富集分析,与图3中的亚型分析相同,但使用层解剖区域组标签。然后,我们为这些群体建立了空间分类法,并用它来计算影响分数。为了分别对与层相关或解剖相关的基因和图案进行排列,我们使用了两组分类(扩展数据图9C,图9C,层的顶部集合,底部为区域),并使用上述方程式计算了两个总影响得分。   DG细胞组和梯度DMR分析(图5E)。根据细胞的整体MCH水平将DG细胞分为四个均匀大小的组,截止阈值为0.45%,0.55%和0.69%。然后,我们使用“与聚类相关方法”中描述的方法随机选择了每个组中的400个单元。为了确保在DG组之间识别的DMR不是由于随机性引起的,我们还随机采样了来自所有DG细胞的400个细胞的15组,无论其全局MCH如何,并将其称为Control-DMRs(使用相同的滤波条件)为Control-DMR(2,003)。只有0.04%的梯度DMR与对照DMR重叠;这些被从进一步分析中删除。根据线性序列(1、2、3、4)计算每个梯度DMR的MCG级分的Pearson相关性(ρ),以量化梯度趋势。DMR具有ρ <−0.75 or ρ >0.75被认为是显着相关的。在进一步分析中未包括弱相关的DMR(占DMR的10%)。   DMR-和DMS富集的基因(图5F,G)。为了研究特定基因体中相关的DMR或DMS富集,我们使用Fisher的精确测试将基因体内的DMS和胞嘧啶的数量与±1 MB区域中的DMS和胞嘧啶的数量进行了比较。我们选择了通过两个标准的基因:(1)调整后的P <0.01 with multitest correction using the Benjamini–Hochberg procedure, and (2) overlap with >20个DMS。DMR和DMS富基因的基因本体分析使用Goatools61进行。所有具有基因体长度> 5 kb的蛋白质编码基因均用作防止基因长度偏置的背景。   隔室强度分析(扩展数据图10G)。我们通过Z分数在DG接触矩阵的每个1-MB箱中通过Z评分进行了总染色体接触,并保留具有归一化覆盖率在-1和2之间的垃圾箱进行分析。过滤后,将全基因组骑士 - 瑞氏级别范围62接触矩阵的PC1用作隔室评分。分数分为50个类别,尺寸从低到高,垃圾箱被分配给类别。每组的染色体内观察/预期(OVE)矩阵用于量化车厢强度。我们计算了每对类别中的平均OVE值,以生成50×50的鞍矩阵。计算隔室强度的平均左上和右下10×10矩阵除以右上和左下10×10矩阵的平均值63。   域分析(扩展数据图10i)。我们使用Arrowhead57在DG中以10-kb分辨率以10-kb分辨率确定了4,580个接触域。对于bin,绝缘得分I由   其中a是骑士 - 瑞式标准级矩阵的ove,平均值是亚字符中范围内的平均值。对于每个组,在所有边界上都计算并平均域边界和100 kb侧翼区域的绝缘得分。   与图6有关,为了降低计算复杂性,我们在100-kb bin MCH功能的数据集上应用了PCA,以获取前3,000个PC,该PC保留了原始数据方差的61%。然后,将这3,000个PC用于训练和测试预测模型。我们使用一个具有两个隐藏层的ANN同时预测细胞亚型及其解剖区域。输入层包含3,000个节点,然后包含一个带有1,000个节点的共享层。共享层同时连接到该小节区域亚型的两个分支隐藏层,每个层都包含200个节点。相应的单热编码输出层遵循分支隐藏的图层。我们使用五倍的交叉验证来访问模型性能。我们在每个隐藏层上使用辍学率P = 0.5的辍学技术64,以防止在训练过程中过度拟合。Adam Optimization65用于训练网络具有交叉渗透损失函数。训练时期的数字和批量大小分别为10和100。训练和测试过程是通过Tensorflow 2.066进行的。   模型性能。这两个输出层分别为每个单个单元的输入生成两个概率向量,分别是细胞亚型和解剖区域的预测。使用最高概率的亚型和解剖区域标签用作每个细胞计算准确性的预测结果。当计算细胞解剖区域的精度(图6C)时,我们以不同的严格度定义了两种精度:(1)使用预测标签的精确精度,以及(2)使用预测的标签或其潜在的重叠邻居的模糊精度。潜在的重叠邻居基于Allen CCF(扩展数据图11A,补充表2)策划了特定解剖区域的相邻区域。ANN模型的确切精度为69%,模糊精度为89%。为了通过ANN评估提高解剖区域的精度的多少,我们仅根据剖析区域组成的每个亚型中的天真猜测来计算模糊精度(扩展数据中的灰点图11c)。我们还使用逻辑回归和基准的随机森林训练了其他模型。ANN对亚型预测的性能与逻辑回归和随机森林相当。相比之下,针对其他两个模型(扩展数据图11b),位置预测中的性能显着提高,这表明将细胞与不同解剖区域区分开可能需要基因组区域之间的非线性关系。我们将Scikit-Learn(V0.23)用于逻辑回归和随机森林实现以及多级分类的多项式目标函数。随机森林的n_estimators设置为1,000。   生物学特征对解剖区域预测的重要性(图6E)。为了评估哪些DNA区域存储可使用我们的模型区分的细胞空间起源的信息,我们通过检查跨单元的每个PC置换量如何影响预测准确性,从而评估了PC特征的重要性。我们测试了每个功能的五个排列,并使用降低的平均精度表明PC特征的重要性。我们检查了100 kB箱中包含的基因,其中最重要的PC特征是给定细胞类型的最重要的PC功能。   有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

本文来自作者[admin]投稿,不代表博钧号立场,如若转载,请注明出处:https://ws-game.cn/zlan/202601-1316.html

(32)

文章推荐

  • 对手通过纹状体多巴胺和5-羟色胺来控制增强

      神经调节剂多巴胺(DA)和5-羟色胺(5-羟色胺;5HT)有力调节联想学习1,2,3,4,5,6,7,8。这些神经调节系统的活动和连通性的相似性启发了DA和5HT相互作用以推动新关联的形成的竞争模型9,10,11,12,13,14。但是,这些假设尚未直接检验,因为不可能在单个受试者中询问和操纵

    2025年06月20日
    31305
  • 凝血酶刺激的细胞分裂涉及其细胞表面受体的蛋白水解

      分子量的细胞表面成分43,000通过凝血酶在凝血酶治疗后分裂的细胞上裂解,但不会在对其有丝分裂作用的无反应的细胞上裂解。凝血酶的光反应性衍生物的研究表明,其细胞表面受体的分子量为43,000。这表明凝血酶必须裂解其受体以刺激细胞分裂。

    2025年06月21日
    35304
  • 【大指数集体,三大指数集体收涨】

    a股收评:三大指数集体收涨什么意思a股收评中“三大指数集体收涨”意味着在A股市场中,上证指数、深证成指以及创业板指在交易日结束时均呈现上涨态势。三大指数的定义:在股票市场中,“三大指数”通常指的是上证指数、深证成指以及创业板指。这三个指数是反映中国A股市场整体表现的重要指标。三大指数集体收涨意味着

    2025年06月22日
    26311
  • 车险理赔交通费怎么算

    一、车险理赔交通费怎么算1、车险理赔交通费如下:(1)交通事故中交通费的计算是往返费用乘以往返次数乘以往返人数;(2)交通费是指事故受害人和必要的陪护人员因就医、配置残疾用具或参加处理事故等活动实际必需的车船票费;(3)交通费,是指道路交通事故发生后,受害人以及参加处理交通事故的当事人亲属因需到医院

    2025年12月17日
    11312
  • 杜塞尔多夫攻略杜塞尔多夫在哪里

    1.杜塞尔多夫在哪德国十大城市1.柏林2.慕尼黑3.汉堡4.科隆香水5.法兰克福6.埃森7.斯图加特8.不来梅9.杜塞尔多夫10.多特蒙德2.杜塞尔多夫在哪个州1柏林2汉堡3慕尼黑,4.科隆,约有110万人居住在莱茵河畔的科隆。慕尼黑的啤酒节,莱茵兰科隆的狂欢节。穿着五颜六色的服装,狂欢者走上街头庆

    2026年01月02日
    6303
  • 日产颐达能跑几十万公里

    基本上日产的车子,质量都没有多大问题,具体能跑多少要看你跑得了多少。主要有以下几点:1.一般来说,一年跑45万公里,你这个车可以开到10多年的,基本上不需要大修,只要不去撞他就不会有太大问题。2.日本车最主要的是发动机好。这个在你买了以后就会深有体会,一个是油耗,另外一个是发动机保持良好状态的时间和

    2026年01月04日
    5303
  • pacific是什么车

    太平洋是什么样的车?太平洋指的是雪铁龙C1,这是一款由雪铁龙推出的汽车,采用了类似于丰田Aygo和标致微型车的底盘。下面我们来了解一下它的外观和动力方面。外观方面这款车尺寸有所提升,车身长度增加了150mm,更具竞争力。尽管外形相当紧凑,但是内部空间的症状还是很出色的。可见它在设计上很注重实用性。动

    2026年01月04日
    5304
  • 科目一考试100题45分钟答题模拟下什么app

    驾校一点通。驾校一点通VIP版专家课程根据每个人不同的学习习惯,为即将参加驾驶员科目一考试的学员提供多种学习方式,配上仿真组卷的模拟考试,以便更好的学习掌握驾考理论知识。产品介绍驾校一点通诞生于2005年,是国内较早深耕驾培领域的互联网服务平台。驾校一点通扎根国内驾培市场,通过搭建线上平台服务与线下

    2026年01月07日
    5307
  • MG是什么样车

    名爵(MG),原本在英国是Morris汽车代理商,后来制造自己开发的订制版汽车,以双门敞蓬跑车闻名于汽车界。南京汽车集团有限公司旗下轿车品牌。2005年6月06日,南汽名爵(MG)汽车项目成立。 2005年7月22日,南汽成功收购MGR公司和动力总成公司资产。 2006年3月10日,南汽名爵(MG)

    2026年01月07日
    1316
  • 实用数学的高级指导

      所有努力发展了近几十年来工业研究的发展的人,以及那些在他们有机会观察Parernment研究部门工作的人,必须在数学氛围中实现通常的学术课程,而不是为政府服务或行业中的LaTire研究工作者提供足够的准备。例如,学生(例如,为了在本文中简洁起见,物理学,化学等简洁起见),生物学或经济学,通常不

    2025年06月18日
    29314
  • 北京现代车suv价格

    北京现代suv车型报价15到40万吧有6款,它的性能:1、高性能特质ENCINO实力远超同级,作为一款真正意义上的高性能SUV,北京现代ENCINO将搭载1.6T高功率T-GDI发动机,最大功率130千瓦,峰值扭矩265牛-米。同时匹配7速双离合变速器。打造高性能动力总成,同时ENCINO还拥有,精

    2025年12月17日
    12310
  • 汽车空调时间开久了不出冷风时什么原因

    汽车空调时间开久了不出冷风的原因可能有以下几点:1、缺少冷媒冷媒的损耗多是以泄漏为主,若是汽车出现空调不凉,加注冷媒后过一段时间又开始不凉,就要注意了,一般出现这种情况,多半是要放血的节奏。若是冷凝器泄漏则需要更换冷凝器,检查泄漏一般是在氟油中添加荧光剂用专用眼镜查看,才可以发现漏点在哪。2、冷凝器

    2026年01月01日
    7322

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2026年01月11日

    我是博钧号的签约作者“admin”

  • admin
    admin 2026年01月11日

    本文概览:  所有使用活动物的实验程序均由SALK Institute动物护理和使用委员会批准,该协议编号为18-00006。成人(p56)C57BL/6J雄性小鼠购自杰克逊实验室,并在...

  • admin
    用户011105 2026年01月11日

    文章不错《小鼠脑的DNA甲基化图集以单细胞分辨率》内容很有帮助