神经科学中的一个基本问题是将刺激的物理特性映射到对应的知觉特征上。在视觉中,波长与颜色相对应;在听觉中,频率与音调相对应。相比之下,化学结构与嗅觉感知之间的映射关系尚不明确。类似于 CIE 颜色空间和傅里叶空间这样的映射有助于更好地理解视觉和听觉编码。同理,为了更好地理解嗅觉编码,嗅觉也需要一个更好的映射。
近日,由 Google Research、 Osmo Lab 等组成的多机构研究团队使用图神经网络生成了一个主要嗅觉映射图谱(principal odor map,POM),该映射图谱反映了感知关系,并能够预测未知气味的性质。该模型在描述气味性质方面与人类一样可靠:在一个由 400 个样本外气味组成的前瞻性验证集上,模型生成的气味特征更接近于经过训练的专家组的平均值,而不是中位数。通过应用简单、可解释、基于理论的转换,POM 在几种其他气味预测任务上优于化学信息学模型,表明 POM 成功地编码了结构-气味关系的广义映射。这种方法广泛地实现了气味预测,并为气味数字化铺平了道路。
该研究日前以“A principal odor map unifies diverse tasks in olfactory perception”为题发表在《科学》上。
建构图神经网络模型
为了生成与气味相关的分子表征,作者构建了一个消息传递神经网络(MPNN),这是一种图神经网络(GNN),它将化学结构映射到气味感知中。每个分子被表示为一个图形,其中每个原子通过其价态、度数、氢原子数、杂化、形式电荷和原子序数来描述。每个键通过其度数、芳香性以及是否在环中来描述。这与传统的指纹技术不同。传统指纹技术在一组键半径内为所有分子片段分配相等的权重,而图神经网络可以针对气味特定的应用优化分子片段的权重。神经网络在各种知觉领域(例如自然图像、人脸和声音)中实现了预测建模的突破,并自然产生了输入数据的中间表征,这些表征具有高维度的数据映射。研究团队使用 GNN 的最后一层直接预测气味特性,并将模型的倒数第二层用作主要嗅觉映射图谱(POM)。POM 具有以下特点:1)忠实地表示已知的知觉层次和距离,2)可以扩展到新的气味物质,3)对结构-气味距离中的不连续性具有鲁棒性,4)可以推广到其他嗅觉任务。
为了训练模型,他们整理了一个参考数据集,其中包含约 5000 个分子,每个分子由多个气味标签(例如奶油味、青草味)描述,通过结合Goodscents和Leffíngwell(GS/LF)风味和香料数据库,该模型在强交叉验证预测性能方面达到了 AUROC=0.89。
为了测试 POM 在表征已知知觉关系方面的表现,作者将 POM 和使用标准化学信息学特征(Morgan 指纹)构建的映射与实证知觉空间进行了比较。他们测量了映射在表征真实相对知觉距离(例如,两个闻起来像茉莉花的分子应该更接近彼此,而不是接近肉香分子)和层次结构(例如,茉莉花和薰衣草是花香族气味的亚型)方面的准确性。POM 能够更好地表征相对距离:感知地图中的距离与 POM 中的距离更显著相关(R=0.73),而不是与 FP 映射中的距离(R=-0.12,p<0.001)。POM 更好地表示知觉层次结构:具有共享气味标签的分子在 POM 中具有显著更紧密的聚类密度(CD = 0.51±0.19),而在 FP 映射中的聚类密度较大(CD = 0.68 ± 0.23,p<0.001),这里较小的 CD 值表示更密集的聚类。
GNN 模型的气味描述能力与人类相当
为了测试模型是否适用于新的气味物质,作者设计了一个前瞻性验证测试。在该测试中,他们将模型的预测性能与人类评价者进行了对比。在嗅觉领域,没有可靠的仪器方法来测量气味知觉,经过训练的人类感官是气味表征的黄金标准。与其他感官模态一样,气味知觉在不同个体之间存在差异性,但群体平均的气味评分已被证明在重复测量中保持稳定。研究团队通过训练,让一组受试者使用"Rate-All-That-Apply"(RATA)方法和 55 个气味相关词汇来描述他们对气味的知觉。在训练过程中,词汇表中的每个术语都与视觉和气味参考配对。只有在 20 种常见气味物质的预测试中达标的受试者才被邀请加入评价小组。
作者对 400 个新的气味物质采用了以下选择标准:1)分子之间必须在结构上有明显差异,2)分子应涵盖最广泛的气味标签,3)分子在结构或感知上必须与训练示例有明显差异。前瞻性验证集包括由≥15名评审员(2 次重复)生成的 400 种新气味物质的 55 种气味标签 RATA 数据。
在对 400 种气味物质进行表征后,由于强度低(42),冗余(1),错误包含(1)或可能有污染(26),作者从最终的前瞻性验证集中删除了 80 种气味物质。在剩下的 320 种分子上评估模型的性能,而无需重新训练模型。
为了衡量模型的性能,团队比较了其标准化预测与标准化小组平均评分的一致性。虽然人类评价者和模型在匹配小组平均分的能力上,不同分子之间存在相当大的变异性,但对于 53% 的分子,模型的输出比中位数评价者更接近小组平均评分。考虑到评价小组在评分时可以闻到每种气味物质,而模型的预测仅基于名义分子结构,模型在这项任务上的优越性更加令人鼓舞。
基准比较
作为基准比较,作者在相同的数据集上训练了基于 cFP 的随机森林(RF)模型,这是先前的 SOTA 模型。这个基准模型只在 41% 的分子上超过了中位数评价者,这表明作者提出的 GNN 模型的性能提升不仅来自数据的数量和质量,而且来自于模型的架构。
GNN 模型在整体上展现出了与人类水平相当的性能,但它在感知和化学类别上的表现如何?当按照气味标签分解性能时,除了麝香以外,模型在所有标签下都位于人类评价者的分布范围内,并超过了 32/55 个标签(58%)的中位数评价者。从按照标签分析的角度来看,这说明 GNN 模型优于使用相同数据训练的 SOTA 模型(配对双尾 t 检验 p=1.0e-7)。
给定标签的预测性能取决于标签的结构-气味映射的复杂性。对于具有明确结构决定因素的标签,模型表现较好,如大蒜味和鱼腥味。而对于麝香这样的复杂标签,模型表现最差。评价者对于气味的熟悉程度也影响其在给定标签上的表现。收集更多的训练数据提高了模型性能的下限。化学物质的纯度也对气味感知有影响,存在杂质可能造成干扰。因此,作者认为在扩大气味空间时需要谨慎处理。质量控制发现许多气味特征不是由名义化合物引起的,模型的性能受到这些污染物的影响。每个质量控制结果对模型性能的影响都是独特的。在某些情况下,尽管存在气味污染物,模型的性能仍然良好。研究估计,如果将这些污染物从评价样本中去除,模型的性能在 50 种情况中有 6 种情况改善,有 6 种情况下性能下降,有 21 种情况下性能保持不变,还有 17 种情况下无法确定影响。
结构-气味距离不连续性
为了测试模型在结构-气味距离不连续性方面的稳健性,作者设计了一个额外的测试。在该测试中,他们构建了 41 个新的三元组,并由专家小组进行验证。在每个三元组中,锚定分子是一个已知的气味物质,并与一个结构相似的新型气味物质和一个结构不相似的新型气味物质进行匹配,其中结构上差异更大的气味物质被预测为与锚定分子更相似。经过训练的评价员将这三种气味物质作为一组呈现,并对组中每个分子之间的感知距离进行评分。通过验证模型的预测结果,作者发现人类评价员通常将这些分子看作与锚定分子类似,而不是与结构上相似的相邻分子类似。这一显著结果进一步证明了 POM 在结构-气味关系中克服不连续性的能力。
一个可靠的结构-气味映射图谱使我们能够大规模地探索气味空间。作者编制了一个约 50 万个潜在气味物质的列表,这些物质的性质是未知的,其中大多数以前从未合成过。由于分子在 POM 中的坐标可以直接从模型计算得出,于是可以在 POM 中绘制这些潜在气味物质,这揭示了一个比当前香水目录所覆盖的空间要大得多的气味分子潜在空间。要使用经过训练的人类评价小组收集这些分子,大约需要 70 年之久。
迄今为止,还没有被广泛接受的方法来量化和分类气味感知。针对这个为题,作者提出了一种新的、数据驱动的、高维度的人类嗅觉映射图谱,能够重现气味感知类别的结构和关系,实现准确的前瞻性预测,并适用于各种嗅觉感知任务。这个映射图谱类似于颜色空间对视觉的表征。模型的性能已经通过前瞻性验证,并超过了化学信息学基线。在实际环境中,模型可以通过在线学习进行更新。这个模型提供了一个简单、直观、连续、层次分明、可解析的分子与气味之间的映射。然而,模型没有考虑气味浓度和新元素的分子,而且在使用映射图谱时需要注意气味杂质的影响,并定期重新训练模型以纳入新数据。这个映射图谱为研究嗅觉感知性质提供了新的工具。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.