ynergy:用于可解释药物协同预测的多模态互注网络

今天给大家介绍的是来自浙江大学公共卫生学院附属第二医院医学院团队在BIB 2024上发表的有关多药联合预测药物协同作用的一篇文章,其主要通过相互关注机制实现跨模态的交互。

本文提出了一个,通过卷积生成细胞系嵌入;构建了互注意模块(DCMA,DDMA和CCMA)和自注意模块多模态互注网络框架 SynergyX,药物特征使用ESPF指纹,细胞系特征中的每个基因使用6种不同特征进行表示(DSSA,CSSA)用于进行跨模态交互,特征提取和提供最终的可解释性。

发现有效的抗肿瘤药物组合对于推进癌症治疗至关重要。充分考虑复杂的生物相互作用对于准确预测药物协同作用非常重要。然而,极其有限的先验知识给当前计算方法的发展带来了巨大的挑战。

为了解决这个问题,本文提出了一个多模态的相互关注网络SynergyX,它动态捕获跨模态相互作用,允许对复杂的生物网络和药物相互作用进行建模。采用卷积增强注意结构对该框架中的多组数据进行有效集成。与其sota模型相比,SynergyX在通用测试和盲测试以及跨数据集验证中都表现出卓越的预测准确性;SynergyX的另一个显著优势在于它的多维可解释性。综上所述,SynergyX提供了一个具有启发性和可解释性的框架,有望催化药物协同作用发现的探索,加深我们对合理联合治疗的理解。

对于每种药物,从ChEMBL数据库中获取其SMILES,然后使用RDKit库将其转换为规范的SMILES。我们进一步将药物的SMILES格式转换为可解释的子结构分区指纹图谱(ESPF),使后续注意模块能够捕获可解释的药效团信息。ESPF通过将药物分解成一组离散的、中等大小的亚结构,形成药物的顺序编码。Huang等人确定了大约2700个有价值的子结构,形成了一个子结构词典。最后,将药物表示为大小为165的定长向量,这里与细胞的后续输入特征的尺寸相匹配。如果药物中的子结构数少于165个,则剩余的位置将用零填充。

为了确定一个潜在的有助于药物协同作用的重要基因子集,我们从不同的集合中选择标记基因并整合它们。LINCS项目发布了一个包含978个基因的里程碑式基因集,已知该基因集捕获了整个转录组81%的信息。这些基因包含在我们最终的基因集中。此外,我们选择了CCLE项目中癌细胞株基因表达变异最大的前1000个基因和TCGA中肿瘤样本中变异最大的1500个基因。这些基因可以有效地捕捉不同样本的异质性。

此外,基于STRING数据库中包含的PPI网络,我们过滤了综合得分高于0.7的相互作用,然后确定了与其他蛋白质相互作用最多的前1000个蛋白质。编码这些蛋白质的基因通常被认为在生物网络中更为关键和功能重要。此外,从STITCH数据库选择了1000个与最多药物相关的药物靶向基因。最后,我们将上述所选择的5组基因(L1000_gene、ccle_gene、tcga_gene、ppi_gene和dti_gene)进行组合,去掉缺失特征的基因后,得到4079个基因。

Synergy的核心模块是跨模态融合编码器,该模块采用多种注意力模块实现特征更新和融合,同时提取潜在的药物-细胞和药物-药物相互作用。我们尝试了相互关注和自我关注模块的不同组合,并最终在我们的SynergyX中确定了一个三层“三明治”结构。外层是相互关注模块,中间层是自关注模块。

跨模态融合编码器从药物-细胞相互注意(DCMA)模块开始,用于跨模态相关特征提取。如图3所示,DCMA模块由多头互注意网络和前馈神经网络组成。核心步骤包括计算药物与细胞和细胞与药物相互作用的权重。药物-细胞注意矩阵用于获得药物反应性细胞潜伏表征。相反,细胞-药物注意矩阵用于获得细胞反应性药物潜伏表征。

在第三层,我们使用两个单峰互注意模块来提取粗粒度的融合信息。其中,药物-药物相互关注模块DDMA整合了药物A和药物B的潜在特征。细胞-细胞互注意模块(CCMA)分别用于结合对药物A和药物B有反应的细胞潜伏特征。DDMA和CCMA都由多头互注意层和前馈神经网络组成。

药物组合数据来自综合数据库DrugComb (v1.5),该数据库包含739964个组合实验。它提供了一种新的药物协同作用测量方法称为S评分,它通过测量药物组合与单一药物的剂量反应曲线之间的差异来定义药物协同作用的水平。研究表明,与现有的四种协同作用评分(HSA、Bliss、Loewe和ZIP)相比,S评分在预测最具协同作用和拮抗作用的药物组合方面具有较高的准确性(AUC>0.99)。我们选择S评分作为药物对在特定细胞系中相互作用的定量指标。

我们从DrugComb数据库中选择了所有可用的数据进行进一步的数据清理。首先,我们删除了关于药物和细胞系信息不清楚或缺失的条目。接下来,我们在数据集中发现了一个明显的数据不平衡问题,其中2157种药物(85.9%)出现的次数少于10次,仅占数据集的1.37%(4587项)。为了解决这种数据不平衡并提高数据集的质量,我们消除了出现次数少于10次的药物。此外,我们采用3σ原理来识别数据集中的异常值,然后使用平均值±3个标准差作为阈值,并为该范围之外的分数分配边界值。最终,我们获得了330917种药物组合的数据集,涉及354种药物和167个细胞系。值得注意的是,尽管DrugComb是现有最大的药物组合数据库之一,但与预测空间相比,标记的数据仍然显着较小。在我们的案例中,167个细胞系中354种药物的组合空间相当于大约2100万种可能性,而现有数据仅覆盖了总可能性的1.56%。

为了评估SynergyX的性能,我们将其与六种具有代表性的最先进的深度学习方法和两种杰出的机器学习方法Random Forest(RF)和XGBoost进行了比较。所有方法都在用于SynergyX的相同数据集上进行了训练和评估。提到的六种深度学习方法分别是DeepSynergy、MatchMaker、DeepDDS、DTSyn、MGAE-DC和DFFNDDS。对于每种方法,我们都试图保持各自研究中提到的一致的输入特征、模型架构和最优训练参数。具体来说,DeepDDS使用GCN或GAT进行药物特征提取,我们将这两种模型分别命名为DeepDDS-GCN和DeepDDS-GAT。

此外,对于最初为分类任务设计的模型,如DeepDDS和DFFNDDS,我们对它们的预测模块和损失函数进行了轻微的调整。我们还在合理的范围内优化了它们的训练参数,使其更适合于回归任务。针对RF和XGBoost,采用类似网格搜索的方法寻找最优训练参数。值得注意的是,cuML包被用来利用GPU加速来训练RF模型

在两种实验设置中对SynergyX和所有比较方法进行评估:(1)重新发现已知药物协同作用的一般测试,(2)发现未知药物对的遗漏药物组合测试。在General测试中,将整个数据集按8:1:1的比例划分为训练集、验证集和测试集。对于遗漏药物组合测试,我们采用了基于药物对的分层抽样方法,确保测试集不包括训练集中存在的任何药物对。最终的训练集、验证集和测试集分别约占所有药物对的80%、10%和10%。所有实验用不同的随机种子重复5次。我们使用均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、r平方(R2)和Spearman相关性(Spearman)作为回归预测任务的评价指标。此外,我们在四个独立的数据集上进一步评估了SynergyX,以证明其在不同数据集上的强大预测能力。数据集分割策略和实验设置与上述一致。性能比较如表1,2所示:

SynergyX包含6个子模块:CNN (多组学集成模块)、DCMA、DSSA、CSSA、DDMA和CCMA。移除SynergyX的不同组件,以评估它们对整体性能的贡献。变体模型被标记为SynergyX-B、SynergyX-C、SynergyX-D、SynergyX-E、SynergyX-F和SynergyX-G。每个模型进行了五次随机实验,以研究某些模块的缺失是否会显著影响模型的性能。如表3所示,完整的SynergyX模型展示了整体最佳性能,这表明了每个组件对模型的贡献的重要性。

考虑到SynergyX、SynergyX- B、SynergyX-E、SynergyX-F和SynergyX-G,我们可以观察到,无论是否存在相互关注模块,卷积增强的注意力架构将CNN和注意力结合起来往往比单独使用其中任何一个都能产生更好的结果。这与我们的假设一致,即CNN特征捕获局部感知特征,而注意力机制可以有效捕获远程语义信息。结合两者可以获得更好的细胞系表示

接下来我们想要弄清楚的两个问题是:

(1)使用多组数据是否总是比使用单一组数据更有效?

(2)特定类型的组学数据是否更适合药物协同作用预测?

因此,我们探索了不同组合组学数据的影响。一共有六种类型的基因组最初应用于SynergyX。为了简化实验,我们随机选取了涉及2、3、4和5种基因组数据的6种组合。如图6所示。

在单组学实验中,不同组学类型的模型性能不同。cn数据的MSE值最低,为82.17,而exp、mut和met表现相对较好。然而,使用eff或dep会导致明显较差的结果。这是因为我们缺乏足够的eff和dep特征,这些特征可以作为补充特征,但在单组实验中应该是无效的。此外,我们观察到,当只使用exp、mut、cn或met数据时,SynergyX始终优于其他模型,这强调了SynergyX架构的优越性,随着组数据类型的增加,模型的预测能力得到一定程度的提高,但当超过两种类型时,SynergyX对不同组合并不敏感,一种可能的解释是,不同的基因组类型提供的信息是互补的,而不是独立的。当所有6个基因组数据都被使用时,获得最佳结果

研究提出一种多模态互注意力网络(SynergyX)用于药物协同作用的预测,性能上看表现优异同时提出了合理的可解释性。SynergyX能够破译药物相互作用的复杂图景,识别环境特异性反应,使更有效地发现药物协同作用。

THE END
0.PrimerPremierv6.24详细图文安装和破解教程primerpremier6使用教程primer premier还可针对面板DNA的来源以相应的遗传密码规则转换DNA和氨基酸序列,它给出了八种生物亚结构的不同遗传密码规则供用户选择,例如纤毛虫大核、无脊椎动物线粒体和支原体等 Primer Premier6.0软件特色 1、Primer Premier 64位主要界面是分为序列编辑窗口(Genetank),引物设计窗口(Primer Design),酶切分析窗口(jvzquC41dnuh0lxfp0tfv8vsa5:959=;51gsvrhng1jfvjnnu1?19<>699
1.德国徕卡MICA宽焦全场景显微成像分析平台在载体上找到样本结构,并观察结肠切片的总体形态。确定感兴趣区域以进行更详细的检查。 获得更多的亚结构细节 切换到下一个更高的放大倍率让您能够评估组织的完整性,并可定位适合进一步分析的区域。 选择感兴趣的细胞 开始查看更多细节,并选择单个细胞以获取亚细胞信息。但是,有些细节仍然模糊不清。 选择感兴趣的细胞jvzquC41yy}/drt/gs{jr7hqo1yiq€6gswoq0jxrAgwvkynf?6?19><3
2.摩根资产管理许长泰:美联储降息利好风险资产东北亚市场受益于聚焦东北亚结构性机遇 在具体的投资机会上,许长泰明确表达了对亚洲市场结构性机遇的看好,尤其是东北亚地区。 他特别强调了日本股市的投资价值,“我们投资日本股票,是基于两个核心的结构性因素”。许长泰解释道,第一,日本企业拥有庞大的海外业务,并且在全球AI相关的周边硬件和材料领域具备极强的竞争力;第二,经过长达jvzq<84pgyy/39osmc4dqv3ep1814>62495d8@7234?9:7xjvor
3.增材制造高强韧性含氧NbTiZr中熵合金(西安交通大学马恩/丁俊团队本研究通过激光粉末床熔合(L-PBF)技术,成功制备出高质量的氧掺杂NbTiZr(NTZO)合金,并系统研究了其微观结构与机械性能。由于L-PBF工艺特有的热循环与快速凝固过程,该合金的晶粒得到显著细化,呈现出细小的近等轴晶与柱状晶的独特组合,同时在亚结构上显示出胞状位错结构与元素偏析的共存现象。相较于铸造态合金,增jvzq<84eckj/zsyw0gjv0ls1kplp1:5261799;3jvo
4.PTH前药的制作方法已经证明,具有持续循环半衰期的pth衍生分子提供了与每日pth相当的对皮质骨和松质骨的合成代谢效应,但是给药频率降低。ponnapakkam等人(drug discov today,2014,19(3),204.208) 提出了另一种方法,其中pth和胶原结合结构域的杂合多肽在单剂量后导致正常雌性小鼠的骨矿物质密度长期(最多12个月)增加。jvzquC41yy}/zsnujw4dqv4|jwgonr4271814;6253664B3jvor
5.NatMethods:彭汉川/王宜敏团队开发平台实现多人协作重建神经元!|图5 CAR用于重建神经元亚结构 CAR所具备的在脑科学大数据中执行神经元形态学分析的能力,为重要的研究工作开辟了新的途径,包括复杂的细胞分类和通过光学显微镜大脑图像构建连接组的潜力。jvzq<84m0uooc7hqo0io1jwvkerfa>=256774?5a37?f;:fe627:2::;;s4ivvq
6.中国科学院苏州生物医学工程技术研究所2020年招聘特别研究助理- 特别研究助理需求表汇总表 序号 需求人数jvzq<84yyy4tf|ly{0ipo8ftvkimg8mvon534A93464ivvq
7.[专家说]智能化DBS,未来发展方向!帕金森帕金森治疗方式HaGuide主要特点为定位刺激位点、简化数据记录和实时分析、准确显示术中脑内电极的位置、分辨STN及亚结构的边界。 2. 术中LFP引导电极植入:改善运动症状 术中LFP辅助定位STN核团,并根据β震荡绘制STN刺激地形图,β活动强的位置可能是最佳植入点。 3. 术中LFP引导电极植入:情绪相关刺激位点 jvzquC41yy}/jjtfh0ipo8sgktuoi8|gp|nbpp4;5;967<53:0nuou
8.News中国科学院数学与系统科学研究院张世华团队针对不同空间转录组技术、不同生物组织建立了破译生物组织空间亚结构的人工智能算法与工具——STAGATE。随着空间转录组技术的日益进步、推广和数据的不断积累,该方法为解析空间数据提供了一个综合高效的工具,将对大规模空间转录组数据的精确解析提供助力。jvzq<84ird4ckp3ce0io1wjyu1713A
9.马氏体的这些形态,你都见过吗?片状马氏体的亚结构主要为孪晶,因此又称其为孪晶型马氏体。片状马氏体的显微组织特征为片间不相互平行。在一个成分均匀的奥氏体晶粒内,冷至稍低于Ms 点时,先形成的第一片马氏体将贯穿整个奥氏体晶粒而将晶粒分割为两半,使以后形成的马氏体大小受到限制。因此,片状马氏体的大小不一,越是后形成的马氏体片越jvzq<84yyy4fexwt0qxh0ls1pg}t1|hkgpif1;544/66/:>13::4;@3jvor
10.线粒体或能改变机体的代谢和基因表达!大约15亿年前,微小的访客来到细胞中生活,随后这些细胞进化成为植物和动物生命(包括人类),这些访客就是线粒体,其是一种小型的细胞器,能够产生细胞生存所需要的大约90%的化学能量,从进化学的角度来讲,人类、动物和植物实际上是两种有机体的完美结合。线粒体拥有自身的DNA,人类细胞的线粒体有13个基因,相比人类细胞核jvzquC41ykqj0jsvrgjjc7hqo1gsvrhng/838A>8;/:62
11.5868欧丽娟:红楼梦5. 家庭结构: 父系家庭下,还存在以母亲为中心的亚结构:子宫家庭 * 母亲—— 和自己的孩子,以感情和忠诚作为维系的来源 * 在一夫多妻的家庭中,会形成很多以母亲为中心的家庭,在这样的大家庭中,大家会行程 * 母亲为中心的利益结合的单位。母亲爱的是自己的延伸,也包括自己不能参与的未来。 jvzquC41yy}/fxzdcp4dqv4pqvk09?734;<3:8
12.人才结构LTD知识百科增长黑武器2.人才的群体结构(微观群体)-单位或部门的人才按一定的层次、序列和比例组合的构成形式。其中又包括多层压结构-性别亚结构、年龄亚结构、职能亚结构、专业亚结构、智能亚结构、个性亚结构等 3.人才的社会结构(宏观群体)-一个地区或一个国家的人才按一定的层次、序列和比例组合的人才构成形式。它除了性别亚结构、年jvzquC41nvj/exr1ctzjeuj175>3595947975983
13.突破强度关键技术方法包括:三级控轧控冷工艺实现多尺度组织调控;电子背散射衍射(EBSD)和透射电镜(TEM)表征位错密度与亚结构;小角中子散射(SANS)定量分析析出相分布;通过中断拉伸实验结合电子背散射衍射-透射菊池衍射(TKD)追踪变形机制。 研究结果部分揭示: 加工工艺设计:Stage 3温轧使材料获得33%铁素体+67%回火马氏体的双相jvzquC41yy}/gknqvtgeg7hqo1tfy|k14286/<4424;15;6295:1;@>70jzn
14.细胞器是什么细胞器有哪些细胞器是细胞质中具有特定形态结构和功能的微器官,也称为拟器官或亚结构。其中质体与液泡在光镜下即可分辨,其他细胞器一般需借助电子显微镜方可观察。细胞器(organelle)一般认为是散布在细胞质内具有一定形态和功能的微结构或微器官。 细胞器是什么 细胞器是细胞质中具有特定形态结构和功能的微器官,也称为拟器官或亚jvzq<84yyy4dj~xcp0ipo8jqpmlcx44846597mvon
15.亚显微结构,ultrastructure,音标,读音,翻译,英文例句,英语词典4) Micro-Sub-Structure 显微亚结构 1. Impact Toughness and Micro-Sub-Structure of a New Stainless Bearing Steel 6Cr14Mo; 新型不锈轴承钢6Cr14Mo冲击韧性与显微亚结构5) Microstructure and ultrastructrue 显微结构和亚显微结构6) ultrastructure [英]['ʌltrə,strʌktʃə] [美]['ʌjvzq<84fkezbnu3eqo5jpmz1236029>;::91COJ0jvs
16.各层电子数排布规则电子版来啦!材料科学基础最全名词解释汇总指新的无畸变晶粒出现之前所产生的亚结构和性能变化的阶段。 106、再结晶 冷变形后的金属加热到一定温度之后,在原变形组织中重新产生了无畸变的新晶粒,而性能也发生了明显的变化并恢复到变形前的状态,这个过程称为再结晶。(指出现无畸变的等轴新晶粒逐步取代变形晶粒的过程) jvzquC41dnuh0lxfp0tfv8|gkzooa<>83;>6:8ftvkimg8igvcomu86346:98=5