自动化现实世界数据集成改善癌症结果预测

  这项研究主要分析了肿瘤基因组测序患者的数据,并从两个部分重叠的来源完成了肿瘤注册表:MSK-IMPACT测序的患者(形成MSK-Chord的基础)和美国癌症研究协会的BPC Project Genie BPC共同,其中包括肿瘤基因组群和临床临床的患者,其中包括MSS的MSK。有关BPC的详细信息之前已发表7。在这里,我们在BPC中包括了单一NSCLC,乳房,结直肠癌,前列腺或胰腺癌的患者。MSK-Chord队列包括MSK的患者,MSK是一家学术癌症医院,使用MSK-Impact进行肿瘤基因组测序,这是一种由食品和药物管理的肿瘤基因组分析测定法,它使用匹配的白色血细胞测序来过滤克隆性骨负质体和生殖变体。所有MSK患者均作为前瞻性测序方案(NCT01775072)的一部分,或作为机构审查委员会(IRB)批准的回顾性研究方案(MSK IRB协议16-1463和19-368)进行分析。该研究得到了MSK和DFCI的IRB独立批准。患者提供了书面,知情同意,并以连续的非随机方式入学。此处的数据来自2023年9月9日的快照。   对于涉及基因水平汇总肿瘤基因组改变的所有分析,使用食品和药物给药识别的分子知识数据库(ONCOKB34)用来注释所有突变,拷贝数变化和结构变化(无论是致癌性还是非基础);任何这种致癌改变都会导致基因以分析目的标记为阳性。对于将非MSK BPC患者用作外部验证队列的OS模型,仅将BPC的所有测序面板中存在的基因用作变量。对于其他基因组分析,将第一个MSK Impact测序面板中包含的341个基因用作变量。从MSK Impact数据中鉴定出每个染色体组的基因组收益和损失的存在或不存在。GRCH37(也称为HG19)中的染色体臂的基因组坐标被认为是获得或丢失的,如果大多数臂(> 50%)由绝对值对数比为≥0.2的段组成(参考44)。   数据预处理。用于计算机断层扫描(CT)的放射学报告,正电子发射断层扫描和磁共振成像检查胸部,腹部,骨盆,头部和/或四肢的磁共振成像检查。使用正则表达式对报告部分进行了细分,以将“印象”部分与完整报告分开,以便于其可用的情况。与手动策划的MSK-BPC标签相对应的印象文本,以癌症,肿瘤部位和癌症进展的存在,以创建标记和文本的直接映射。   影像学进程。我们对从放射学报告中提取的印象部分与二进制的人类策划的进程标签进行了微调。标签被称为“进步/恶化/扩大”和“混合”为正面的两个精灵BPC标签类,将其称为正面,并将其他类别称为负面(“改善/响应”,“稳定/无变化”和“未陈述/不确定”)。   在文档级别提供了二进制监督标签(即,对模型进行了培训以预测给定印象部分的单个二进制变量)。我们使用了Roberta的Pytorch46实现,并从Huggingface库和Model Hub47中验证了模型权重。文本用默认的Roberta令牌化进行了标记,并使用第一个[CLS]伪token的默认调节方法汇总了报告级预测。我们使用了128个批量的大小,使用ADAMW Optimizer48进行微调,使用2×10-6的学习率,并进行20个时代的微调,并具有线性衰减的学习速率调度仪,并具有2个上调的热身时期。通过随机搜索选择了超参数值,该搜索使用跨学习率值的20%报告集{1×10-6、2×10-6、5×10-6、1×10-6},批量尺寸值{8、16、32、64、128、256}和Num-epochs {8、16、32、64、128、256}和num-epochs {5、10、20、20、50、50、50、50、50、50、50、50、50、50、50、50}。在整个MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果)。   肿瘤部位。我们对Clinicalbert Model49进行了微调,该临床Bote49本身就是Mimic-III v1.4数据库51的报告中的Biobert Model50。我们从放射学报告中提取了印象部分,并将其与Genie BPC数据集的报告级监督配对。将标签转变为十个二进制变量,与九个常见疾病部位(肾上腺,骨骼,中枢神经系统或大脑或大脑,腹腔内,肝脏,肺,肺,淋巴结,胸膜和生殖器官)的封闭库存相对应,并描述了一个“可变性”,该报告是否在指示的tamor中,该报告是否可变性。   该模型接受了多标签设置的培训:合并的变压器输出输入了具有TANH非线性的单层完全连接的宽度D网络,其输出线性转换为十维矢量,从而提供了十个logits,从哪个二元交叉镜头损失了,从哪个二元交叉触发器中计算出金色的均值损失。换句话说,网络计算   in which x is the tokenized document, φ(x) is the pooled transformer output vector, W is a learned affine transformation outputting a d-dimensional vector, tanh is applied element-wise, V is a learned affine transformation mapping d-dimensional vectors to ten-dimensional vectors, and σ is a plain element-wise sigmoid function;f(x)是0到1之间的值的十维矢量。请注意,不同的每场地预测是非截然不同的,并且鉴于后池D维隐藏状态,并且有条件地是独立的。   Clinicalbert模型在Pytorch46中实施;我们在拥抱面库和模型HUB47中使用了模型和预估计的模型权重。我们使用第一个[Cls]伪token上的默认调节方法汇总了变压器模型输出,该方法已预先到包含印象部分的序列上。我们使用了使用ADAMW48进行培训的ADAMW48,使用批量8,学习率为2×10-6,辍学率为0.2(应用于后池单隐居单层馈电网络)和1,024的前隐藏率,1,024个训练的训练,15个epochs的训练率为1.5 epochs。在整个MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果)。   癌症的存在。我们对从放射学报告中提取的印象截面与二进制的人类策划的癌症证据标签进行了微调53 bert52基本模型(未基于)的模型。标签被称为MSK-BPC标签1级为癌症的“是”,并将标签0称为“否”标签,因为不存在癌症。在文档级别提供了二进制监督标签(即,对模型进行了培训以预测给定印象部分的单个二进制变量)。按照描述的肿瘤部位训练BERT模型。用默认的huggingface自动言器将文本用于BERT,并使用第一个[CLS]伪token上的调理方法汇总了报告级预测,以备构成印象部分的序列。我们使用的批量大小为32,最多为10个时期。我们使用ADAMW Optimizer48训练了模型,使用1×10-5的学习率,1×10-8的Epsilon,重量衰减1×10-4,没有热身效果。在训练过程中,优化了模型权重以最大程度地减少跨透明度损失。   数据预处理。通过医学肿瘤学家,辐射肿瘤学家,手术,住院服务等人创建的初步咨询(IC)和后续说明对患者的临床医生注释进行了询问和过滤。机构数据库中的注释分为小节,包括家族史,当前疾病,合并症等。音符子款的进一步过滤或组合取决于应用程序。为了推断先前的外部药物,IC笔记已被过滤,并包括与外部治疗有关的部分,例如过去的病史,当前疾病的历史和主要的投诉,同时排除了提及未来治疗计划的部分。在允许音符类别中没有IC注释的患者被排除在培训和验证集中。我们排除了有IC票据的患者在初次访问日期之后90天以上的患者。我们选择了每个患者的一张便条进行分析。如果患者有多个音符,则使用最早创建时间的IC音符。用于推断HER2和激素受体的预处理包括由乳房医学划分产生的过滤音符组成,为此,将整个IC和后续音符用作模型的输入。   事先外部治疗。上面介绍的其他基于变压器的模型基于印象部分通常很短,因此看不到从截断文档到最大模型输入序列大小为512个微功能的最大模型输入序列大小。对于这些模型使用的全自自动注意参数化是必需的,需要在输入序列长度上四次地缩放内存缩放。但是,完整的IC报告明显比印象部分更长,并且在更长的文本上下文中,任何提及先前的抗塑性治疗方法都会发生。因此,我们使用工程设计的变压器模型具有次级记忆要求;特别是,我们微调了临床长形的Model54,它本身就是模拟器上的longformer Model55,对MIMIC-III V1.4数据库进行了微调。该模型的最大输入序列长度为4,096个微动物。   Pytorch46中实现了临床倾斜器模型;我们在拥抱面库和模型HUB47中使用模型和预估计的模型权重。我们使用第一个[CLS]伪token上的默认调节方法池量池模型输出,该方法已备用到包含印象部分的序列。我们使用64个批量的批次训练ADAMW48,学习率为1×10-6,对20个时期的训练,热身时期为2个时期。我们在训练过程中均匀地统一地样本少数级示例,以实现班级平衡。在MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果)。   HER2和激素受体。由于HER2和激素受体在病理样本中可能是异质性的,因此我们试图根据临床医生笔记创建一个分类器,以确定用于治疗治疗的患者癌症的总体受体亚型。在培训中,我们使用了6,053例单培养乳腺癌患者的临床医生笔记,并用手动注释的HER2和激素受体亚型来训练单独的HER2和激素受体二进制分类器。我们在该队列中进行了90/10分的训练和测试。具体而言,临床医生在时间顺序上指出,最接近测序的特征是特征,专家注销的亚型用作目标。对于最终验证,我们使用了先前发表的乳腺癌数据集22的1,489例患者的持有组。与先前的治疗模型一样,我们使用了2,000个刺激输入,使用了2,000个刺激性输入,用于HER2和激素受体分类器,并根据需要进行填充。我们使用的是ADAMW优化器的批量大小为64,学习率为1×10-6,训练30个时期,没有热身的热量。   吸烟状况。吸烟状况(以前或现在与从未有)是通过适用于给定患者的第一个可用临床医生评估的正则表达提取来从专用的吸烟或社会历史部分获得的。该算法是基于先前发表的247例NSCLC患者和先前注释的吸烟状态14创建的,该患者也扣留了MSK-BPC NSCLC队列中的患者的数据。该模型是根据MSK BPC NSCLC队列验证的。   PDL1。PDL1状态(正定义为1%或更高)是通过应用于给定患者的第一个可用临床医生评估的正则表达提取获得的。该算法是基于先前发表的247例NSCLC患者和先前注释的吸烟状态14创建的,该患者也扣留了MSK BPC NSCLC队列中的患者的数据。该模型是根据MSK BPC NSCLC队列验证的。   格里森评分。通过将前列腺活检或切除术的病理报告应用于病理报告中,获得了格里森评分(6-10)。该算法是基于先前发表的451例前列腺癌患者和先前注释的Gleason Score56的迭代微调创建的,并在MSK BPC前列腺队列中扣留患者的数据。该模型是根据MSK BPC前列腺队列验证的。   MMR。通过应用于组织病理学报告的正则表达提取获得不匹配状态(熟练与缺乏)。该算法是基于先前发表的224例CRC患者和先前注释的MMR状态57的人群创建的,该患者还扣留了MSK CRC队列中的患者的数据。该模型是根据MSK BPC CRC队列验证的。   计费代码注释指标。我们试图评估结构化数据元素的准确性(即计费代码12),以恢复肿瘤位点信息,并将这种准确性与我们的NLP算法的准确性进行比较。由于计费代码的时机不一定与特定的放射学报告有关,因此我们在患者水平上汇总了标签,在患者肿瘤部位的癌症检测在患者病史的任何时候被认为是该部位的积极的。将患者级计费代码标签和NLP标签(如上所述的放射学印象)与金标准的策划BPC标签进行了比较,所有这些标签都在患者水平上汇总。补充表2中提供了这些注释的患者级精度。   RSFS58使用预分配的超参数(N TROOES = 1,000,最小n分= 10,最小N样品,每片叶子= 15)训练,在上次随访时从队列进入的时间进行了死时间,在上次随访时进行了右审查。在探索性辅助分析中,进行了随机的高参数网格搜索,以进行评估20%的固定量以找到“最佳”超参数(n Tree范围200-2,000,最小n个n片范围5-20,最小N样品,每个叶子范围5-30,N搜索量为5–30,N搜索量= 100,三倍跨跨互式互动以进行超层均计选择);对最佳超参数训练的模型并未产生更好的结果(使用最佳分配的超参数与预分配的超参数相比,C-指数“改进”为-0.01)。我们将所有变量包括在补充表6中,根据该表中的模式分组。   为了预测左截断和右审查时的死亡时间,我们使用了从以前的工作59,60使用RF(Random Forest)方法更新的OnCocast软件包(https://github.com/axelitomartin/oncocast)。简而言之,此方法将弹性的网络调查的COX比例危害模型拟合到数据,然后应用随机森林来估计Martingale残留物。当对新数据测试模型时,将应用此校正项。我们通过交叉验证或在整个MSK-schord数据集中训练并验证了非MSK BPC数据集上的模型,以创建一个合奏学习模型。配置了500棵树,5个终端节点和50次运行的OnCocast型号,安装在训练集中。在所有迭代中都进行了测试集风险的预测。使用每次迭代时的一致性概率指数评估模型性能。   我们微调了临床长期54模型,以输入CT胸部,腹部和骨盆(CAP)报告的全文报告,并在6个月内预测二进制OS,这是临床意义上有意义的端点和单个放射学报告可能有意义的预后的时间范围。我们将所有队列分为患者水平的培训和测试组,保留20%的队列或所有CT帽的患者,以在队列进入测试后的3个月内,以较小者为准。在培训集中,所有患者的所有CT CAP报告均根据6个月内的生存状况注释;那些不足随访的人被排除在外。在该数据集中对临床长度大小进行了微调,使用64个批量的学习率为1×10-6,对20个时期进行了训练,并进行了两个时期的热身时期。   使用COX比例危害模型分析了基因组改变与转移时间的关联。死亡被视为审查事件。在开始时间(采集样本时间;也就是说,可以确认给定肿瘤的最早时间)转移到给定的感兴趣部位的患者被排除在分析之外。在所有多变量分析中,将先前的治疗(任何与无)和阶段(I – III与IV)一起作为变量。组织学亚型作为变量包括在内。   我们利用了两种验证群体的LUAD患者和肿瘤基因组分析:DFCI患者;和商业现实世界中数据集中的患者。DFCI队列的详细信息先前已发表1,61。在商业数据集中,将NSCLC患者的福尔马林固定石蜡包裹的样品提交给了商业临床实验室改善改良修订的分子特征实验室(Caris Life Sciences,Phoenix,AZ,AZ)。任何患有Caris肿瘤分子分析的患者都有资格纳入;患者的来源包括各种社区和学术环境,患者与MSK-Chord的患者不重叠。通过下一代测序,592个针对的面板或用于基因组特征的全异位测序,分析了总共29,422个具有腺癌组织学的NSCLC。在分子测试之前,通过使用手动显微解剖技术收集靶向组织来实现肿瘤富集。对于NextSeq-sequested肿瘤,使用定制设计的SURESELECT XT分析来富集592个全基因靶标(Agilent Technologies,Santa Clara,CA)。对于Novaseq全异常序列的肿瘤,使用了一个杂种下拉面板,旨在在高覆盖范围和高读取深度下富含700多个临床相关的基因,并使用了另一个旨在丰富较低深度的> 20,000个基因的面板。添加了一个500-MEGABASE单核苷酸多态性主链面板(Agilent Technologies,Santa Clara,CA),以帮助进行基因扩增和缺失测量和其他分析。所有变体均以> 99%的置信度检测到,平均测序深度> 500,分析灵敏度为5%。该测试的敏感性可检测到大约10%的细胞群,这些细胞中所有外显子中含有突变的细胞,来自高阅读深度临床基因,而在20个外显子中,所有外显子中有99%,在20%中,其中99%000个全外部区域。确定的遗传变异是通过董事会认证的分子遗传学家来解释的,并根据美国医学遗传学和基因组学标准进行分类。实际OS是从保险索赔数据中获得的,并从活检时间到上次联系时间。   有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

本文来自作者[admin]投稿,不代表博钧号立场,如若转载,请注明出处:https://ws-game.cn/zlan/202601-874.html

(26)

文章推荐

  • 墨尔本大学的生物化学

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月19日
    28301
  • 河南平顶山新增11例阳性(河南平顶山新增11例阳性病例)

    河南新增13例本土确诊,当地为此采取了哪些防疫措施?1、河南新增13例本土确诊,当地为此采取了很多防疫措施,比如说对全体师生进行隔离,全市人民进行核酸检测,对一些时空伴随着发短信告知,要求不能乘坐公共交通工具,不要去往人多的地方,最好选择在家隔离等等各种措施,这些措施都是有利于疫情的防控的,因此希

    2025年06月20日
    29309
  • 西安新增13个高风险区/西安高风险小区

    西安市中高风险地区吗中高风险地区众多:西安市目前有1个高风险地区和40个中风险地区,这些地区的疫情形势较为严峻,需要采取严格的防控措施来遏制疫情扩散。因此,为了有效控制疫情的传播,保护市民的生命安全和身体健康,西安市采取了封闭全市小区的防疫措施。这一措施旨在减少人员流动,降低疫情传播风险,为疫情防

    2025年06月21日
    40314
  • 【马6新款,马6新款什么时候上市】

    马6新款上市时间是什么时候?1、全新一代的马自达6很可能在2020年才能在国内上市,而2019年3月1日已经上市了一款新车型(小改款)。以下是关于这两款车型的详细信息:全新一代马自达6上市时间:预计2020年上市。技术特点:搭载创驰蓝天技术第二代,采用后轮驱动。变化:外形和内饰都有较大改变,将为

    2025年06月24日
    28310
  • 耐克标志是什么车

    耐克标志是迈凯伦汽车。迈凯伦(McLaren),是属于英国豪华超级跑车品牌;迈凯伦的标志,在车身外是“McLaren”字母为主,在汽车内饰是以“弯月设计”形状为主;迈凯伦最早标志设计于1963年,厂徽设计成通用电气鸟,布鲁斯·迈凯伦家乡新西兰的国鸟。迈凯伦汽车的特点迈凯伦汽车使用了迈凯伦轻量化碳纤维

    2025年12月30日
    7311
  • 宝沃bx7能买吗

    我原本是干市场营销的,换了工作竟然彻底大反转,改行做了人力。外人眼里,人力这个活就很轻松,平时也就跑跑腿,给员工发个工资啥的。然而,我们公司员工大约得一百多人,平时杂七杂八的事儿实在是太多了。考勤、团建、工资发放、社保办理等等,起初那几个月,几乎没有闲着的时候。?平时出门,基本都是得打车。人少的时候

    2025年12月31日
    8300
  • 12年迈腾驻车模块编码是多少

    3AA.907.801.H。12年迈腾驻车模块编码是3AA.907.801.H,2012款迈腾3.0L手自一体V6FSI旗舰型,核载人数5人,油耗6.5L/100km,整备重量是1630kg,最高时速240km/h。迈腾源自和帕萨特B6关系紧密的FutureB6,这也是一汽-大众建厂以来将

    2026年01月01日
    6318
  • 路虎越野suv

    路虎作为豪华SUV的领军品牌,日子过得并不是一帆风顺。曾几何时,在国内消费者的心中,路虎汽车要比奔驰、宝马、奥迪高出好几个档次,尤其是在2009年的电视剧《蜗居》播出之后,路虎的销量更是一发不可收拾,加价提车那是再正常不过的事了。但如今,部分车型即便是打7折,依旧鲜有人问津。不过,聚焦产品本身。路虎

    2026年01月02日
    8309
  • 丰田bZ3上市后会威胁到同级自主车型地位?

    这些年随着汽车向电动化发展,车企们都想通过这波浪潮来提升自己的品牌形象,其中自主品牌在这一板块的行动比较敏捷且成效明显。当大家都认为合资品牌依旧不上进时,一汽丰田也终于觉悟过来,从SUV和轿车领域进军市场,丰田bZ3就在这一背景下而诞生,定位纯电中型车,预售价为18.98-21.98万元,这一定位与

    2026年01月03日
    7304
  • MG是属于合资车还是国产

    是合资车,中英合资。\x0d\简介:\x0d\MG(名爵)全称MorrisGarages,成立于1924年是一个源自英国的汽车品牌,公司以生产著名的MG系列敞篷跑车而闻名,MG跑车向来以独特的设计、做工精细和性能优良而著称\x0d\发展史:\x0d\MG之父是威廉·莫里斯,这个靠4英磅起家的英国伍斯

    2026年01月08日
    4308
  • 雅马哈nmax155论坛

    高品质150cc踏板摩托都在这里,想买车的不妨进来看看!今天给大家说说摩托车,摩托分为弯梁、跨骑、太子、哈雷、仿跑、踏板等车型,今天就给大家说说踏板摩托,这种摩托好处太多,体积小、操控方便,绝对是城市代步神器。今天就给大家盘点几款1500cc的高品质踏板摩托。雅马哈NMAX155雅马哈NMAX155

    2025年12月21日
    10311
  • 科目二中途可以停车吗

    科目二项目中间是可以停车的。离开了考试区域就可以在外面停一下车,这种情况是不会扣分的。但是要注意停车,不要出现发动机熄火的现象。具体如下:1、科目二中途停车超过两秒就会扣分。在考试用车的车轱辘上面是安装有感应器的,如果出现中途停车的情况,速度就是0,在进行考试项目的过程中,出现停顿超过两秒的情况,感

    2026年01月02日
    7307

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2026年01月12日

    我是博钧号的签约作者“admin”

  • admin
    admin 2026年01月12日

    本文概览:  这项研究主要分析了肿瘤基因组测序患者的数据,并从两个部分重叠的来源完成了肿瘤注册表:MSK-IMPACT测序的患者(形成MSK-Chord的基础)和美国癌症研究协会的BPC...

  • admin
    用户011206 2026年01月12日

    文章不错《自动化现实世界数据集成改善癌症结果预测》内容很有帮助