神经符号能量模型的数学框架建模范式分类及学习技术套件算法张量微分|标记符号是构造分类法的最基本要素_倾斜构造

《神经符号系统的数学框架、建模范式分类及学习技术套件》

摘要

神经符号（NeSy）系统领域正在迅速发展。提出的方法是实现神经和符号方法的共生结合，展现出巨大的潜力。然而，每个NeSy系统在根本上都有所不同。迫切需要一个统一的理论来阐明方法之间的共同点和差异，并促进进一步的进展。

在本文中，我们介绍了神经符号能量基模型（NeSy-EBMs），这是一个统一的数学框架，用于概率和非概率NeSy方法的判别和生成建模。我们利用NeSy-EBMs开发了一个模型范式的分类，重点关注系统的神经符号界面和推理能力。此外，我们为NeSy-EBMs引入了一系列学习技术。

重要的是，NeSy-EBMs允许推导出突出学习损失梯度的一般表达式，我们提供了四种利用多个领域方法的学习途径，包括双层和随机策略优化。最后，我们介绍了Neural Probabilistic Soft Logic（NeuPSL），这是一个为可扩展性和表达性而设计的开源NeSy-EBM库，促进了NeSy系统在现实世界中的应用。通过对多个数据集的广泛实证分析，我们展示了NeSy-EBMs在各种任务中的实用优势，包括图像分类、图节点标记、自动驾驶车辆情境感知和问答。

关键词：神经符号AI，能量基模型，深度学习

1 引言

神经与符号相结合的相互受益承诺推动了机器学习研究的显著进展。近年来，神经符号（NeSy）计算文献（d'Avila Garcez et al., 2002, 2009, 2019）取得了许多突破。自 2005 年（NeSy2005）以来，NeSy 社区定期举办工作坊，并于 2024 年（NeSy2024）开始召开会议。总体而言，NeSy 研究旨在构建结合神经和符号组件的算法和架构（Xu et al., 2018；Yang et al., 2020；Cohen et al., 2020；Manhaeve et al., 2021a；Wang et al., 2019；Badreddine et al., 2022；Ahmed et al., 2022a；Pryor et al., 2023a）。随着该领域的快速发展，NeSy 需要一个统一的框架，作为进一步进展的基础。这样的统一理论应帮助理解和组织 NeSy 方法的优缺点，并将设计决策与应用需求对齐。此外，它还应支持新型且广泛适用的 NeSy 推理和学习算法的开发。

本文引入了神经符号能量模型（NeSy-EBMs），这是一个统一的 NeSy 框架。NeSy-EBMs 是由参数化神经和符号组件的能量函数定义的一类能量模型（EBMs）（LeCun et al., 2006）。神经组件由深度模型组成，其输出提供给符号组件，符号组件使用领域知识和约束来衡量变量的兼容性。这个通用形式化具有多重功能，包括作为识别 NeSy 模型的建模范式和推理能力的基础，并开发普遍适用的 NeSy 推理和学习算法。此外，基于能量的建模是一种公认且成熟的视角，将 NeSy 与更广泛的机器学习文献连接起来。

我们使用 NeSy-EBM 框架引入了将推理形式化为数学规划的通用形式化。该形式化推动了新的 NeSy 分类法，该分类法根据推理能力对模型进行分类。具体而言，我们将方法分为三种建模范式，这些范式随着表达性和复杂性的增加而变化：深度符号变量、深度符号参数和深度符号势。它们的区别在于神经符号连接的方式，即神经组件输出在符号组件中的使用方式。我们的建模范式帮助组织和阐明了现有 NeSy 系统的优缺点。此外，我们还识别了支持 NeSy 用例的架构，例如从领域知识和数据中学习、满足预测约束以及在开放域中进行一致推理。

此外，我们为 NeSy 开发了一套有原则的神经和符号参数学习技术。NeSy-EBM 的预测通常通过找到具有高兼容性（即低能量）状态的变量来获得。通过优化算法（例如，针对连续变量的内点法（Nocedal 和 Wright, 2006）或针对离散问题的分支定界策略（H. Papadimitriou 和 Steiglitz, 1998））最小化能量函数，找到高兼容性状态。由于预测过程复杂，很难找到相对于参数的标准机器学习损失的梯度或下降方向。为了形式化这些挑战并提出解决方案，我们基于与 NeSy-EBM 能量函数的关系复杂性引入了学习损失的分类。我们推导了当损失可微时，与神经和符号参数相关的分类学习损失梯度的一般表达式。此外，我们引入了四种 NeSy-EBM 学习算法：一种分别学习神经和符号权重的算法，以及三种端到端学习的算法。我们的端到端学习算法借鉴了双层优化和强化学习文献中的思想。此外，我们讨论了每种算法的优缺点，并使用我们的建模范式描述了其适用性。

从 NeSy-EBMs 获得的见解推动了一个包含主要建模范式和可微性属性以支持学习的系统。因此，我们引入了神经概率软逻辑（NeuPSL），这是一个高度表达且高效的框架，用于构建 NeSy-EBMs。NeuPSL 使用概率软逻辑（PSL）（Bach et al., 2017）的原则性和全面的语义来创建 NeSy-EBM 的符号组件。然后，可以将任何深度建模库构建的神经组件无缝集成到 PSL 符号组件中。此外，为了确保可微性属性并提供用于学习的有原则的梯度形式，我们提出了 PSL 推理的新公式和正则化方法，作为一个受约束的二次规划。

接下来，我们通过对五种用例进行文献回顾来调查 NeSy-EBM 的实用性：1）约束满足与联合推理，2）微调与适应，3）少样本与零样本推理，4）半监督学习，5）处理噪声数据的推理。我们展示了前四种用例的强大能力，并同时在多个变化的七个数据集上进行了广泛的实证分析，以分析我们提出的建模范式和学习算法。我们展示了在真实应用中令人信服的结果，包括图节点分类、计算机视觉目标检测和自然语言问答。值得注意的是，NeSy-EBMs 显著增强了神经网络的预测准确性、约束执行能力，并在半监督和低数据设置中分别提高了标签和数据效率。

本文整合并扩展了我们之前关于 NeSy 集成和应用的工作，基于 NeSy-EBM 框架（Pryor et al., 2023a；Dickens et al., 2024a,b）。NeSy-EBM 模型的优势已在多项任务中得到验证，包括对话结构归纳（Pryor et al., 2023b）、自然语言（Pan et al., 2023；Dickens et al., 2024b）和视觉问答（Yi et al., 2019）、自动驾驶车辆态势感知（Giunchiglia et al., 2023）、人类活动识别（Arrotta et al., 2024）、推荐系统（Carraro et al., 2022）以及自主代理导航与探索（Zhou et al., 2023）。此外，NeSy-EBM 框架还深入理解了 NeSy 系统的连接性和能力（Dickens et al., 2024b）。NeSy 推理和学习算法（Dickens et al., 2024a）的开发，以及新的开源 NeSy 实现（Pryor et al., 2023a），使 NeSy-EBM 框架成为统一和形式化 NeSy 模型连接性和能力，并开发新型 NeSy 架构和算法的强大工具。

本文结构如下：在第2节中，我们通过对NeSy应用的文献回顾来激发NeSy建模的动机，并将其组织为五种用例。然后，在第3节中，我们讨论了与NeSy框架、能量基模型（EBM）和双层优化相关的工作。第4节中，我们正式定义了NeSy-EBMs；第5节中，我们介绍了三个实用的NeSy建模范式。第6节中，我们提出了一系列NeSy学习技术。接下来，第7节中，我们引入了模板化的NeSy-EBMs和NeuPSL，这是一个可扩展且富有表现力的NeSy-EBM实现。NeuPSL在第8节的实证分析中实现了NeSy-EBMs，涵盖NeSy用例、建模范式和学习算法。最后，我们在第9节和第10节讨论了局限性、启示和未来工作。

2 动机

我们强调了五个激发NeSy的应用场景：1）约束满足和联合推理，2）微调和适应，3）少样本和零样本推理，4）半监督学习，以及5）处理噪声数据的推理。这些用例并非详尽无遗。然而，NeSy方法在这些应用中的有效性已经被充分证明，并且我们将在实证评估中展示其中的四个用例。以下小节定义了问题，并对在这些环境中使用NeSy技术的高层次动机进行了说明。此外，我们还讨论了现有NeSy系统在每个应用中的集合。

2.1 约束满足与联合推理

在现实环境中，部署模型的预测必须满足明确的要求。此外，利用输出中的已知模式或依赖关系可以显著提高模型的准确性和可信度。约束满足是找到满足所有要求的预测。NeSy系统通过在其输出上进行推理来提供结构化预测，通常使用某种形式的联合推理。换句话说，NeSy系统在预测过程中集成了约束和知识。

一个常用的约束满足和联合推理的NeSy技术示例是解谜问题。许多NeSy框架都以视觉数独及其变体作为评估对象（Wang等，2019；Augustine等，2022）。在视觉数独问题中，谜题是由手写数字构成的，模型必须分类这些数字并推断数字以使用数独规则填充空白单元。在Wang等（2019）、Augustine等（2022）、Pryor等（2023a）和Morra等（2023）的研究中可以找到NeSy系统在视觉数独问题上进行约束满足和联合推理的实证评估。类似地，Vlastelica等（2020）提出了最短路径问题作为NeSy任务。地形图像被划分为网格，模型必须在两个点之间找到一条连续的最低成本路径。Vlastelica等（2020）和Ahmed等（2022a）的工作中，NeSy模型用于最短路径问题的约束满足和联合推理。

使用NeSy模型进行约束满足和联合推理在现实世界的自然语言任务中也非常有效。例如，Sachan等人（2018）引入了Nuts&Bolts NeSy系统，构建了一个解析物理问题的流水线。该NeSy系统结合了多个组件进行联合推理，融入领域知识，避免了简单组合带来的错误累积。在另一项研究中，Zhang等人（2023）提出了GeLaTo（生成符合约束的语言），用于对语言模型生成的文本施加约束。GeLaTo通过自回归方式从由预训练语言模型和可处理的概率模型（编码约束）构建的分布中采样生成文本符号。最近，Pan等人（2023）引入了Logic-LM框架，将大型语言模型（LLM）与符号求解器集成，以提升复杂问题的解决能力。Logic-LM通过使用LLM来构造一个符号模型，该模型基于符号语言的语法和语义提示。最后，Abraham等人（2024）介绍了CLEVR-POC，要求利用逻辑约束生成对给定部分场景中隐藏物体问题的合理答案。他们通过将LLM与视觉感知网络和形式逻辑推理器集成，展示了在神经方法上的显著性能提升。

计算机视觉系统也从NeSy模型的约束满足和联合推理能力中获益。例如，语义图像解释（SII）任务涉及从图像中提取结构化描述。Donadello等人（2017）利用逻辑张量网络（LTN）（Badreddine等人，2022）框架实现了用于SII的NeSy模型，通过逻辑公式推理对象之间的“部分”关系。类似地，Yi等人（2019）提出了一个NeSy视觉问答框架（NS-VQA）。作者使用深度表示学习进行视觉识别，恢复场景的结构化表示，然后通过语言理解从问题中构建程序。一个符号求解器执行该程序以获取答案。Sikka等人（2020）引入了深度自适应语义逻辑（DASL），用于在给定边界框和对象类别标签的情况下预测图像中对象对之间的关系，即视觉关系检测。DASL系统允许建模者使用一阶逻辑表达知识，并将特定领域的神经组件组合成一个深度网络。DASL模型通过最大化知识的真值测量进行训练。

2.2 微调与适应

我们正处于AI基础模型的时代（Bommasani et al., 2022）。如今，调整一个在大量通用数据上预训练的模型（通常使用自监督学习）以适应下游任务已经变得非常普遍。微调和适应是两种更新预训练模型参数以处理新领域中特定问题或数据集的方法（Devlin et al., 2019；J. Hu et al., 2022）。微调和适应通过最小化数据集上的学习目标来调整预训练模型参数，这些学习目标都是专门为下游任务设计的。这些步骤是现代AI开发过程中的必要环节。

在微调和适应步骤中，NeSy框架被用来设计原则性的学习目标，这些目标整合了与下游任务和应用领域相关的知识和约束。Giunchiglia等人（2022）提供了关于使用逻辑指定背景知识来训练神经模型的最新调查。NeSy学习损失在Giunchiglia等人（2023）的工作中应用于微调一个用于自主车辆情况意识的神经系统（Singh et al., 2021）。在另一个计算机视觉任务中，Arrotta等人（2024）开发了一个NeSy损失，用于训练一个神经模型以执行上下文感知的人类活动识别。NeSy微调和适应也在自然语言处理文献中得到了探索。最近，Ahmed等人（2023b）提出了伪语义损失，用于对大型语言模型进行去毒化。作者禁止了一些有毒词汇，并展示了这种直观的方法如何将语言模型的生成从有害语言中引导出来，并实现了最先进的去毒化评分。Feng等人（2024）探讨了在LLM中直接学习逻辑求解器的推理过程，以避免解析错误。最后，Cunnington等人（2024）介绍了NeSyGPT，它微调了一个视觉-语言基础模型，以从原始数据中提取符号特征，然后学习一些答案集程序。

2.3 少样本和零样本推理

下游任务的训练数据可能有限甚至不存在。在少样本设置中，只有少量示例可用，而在零样本设置中，任务没有提供明确的训练数据。在这些设置中，少样本和零样本推理技术用于使模型能够超越有限的训练数据进行泛化。利用预训练模型和领域知识是成功应对少样本和零样本情境的关键。

NeSy技术已成功应用于各种少样本和零样本设置。集成符号知识和推理能够更好地从少量示例中进行泛化。NeSy系统可以利用符号知识对未见过的类别或任务进行推断。例如，为新项目或用户提供推荐可以视为一个少样本或零样本问题。Kouki等人（2015）引入了HyPER（混合概率可扩展推荐系统）框架，用于整合和推理各种信息来源。通过结合多个信息来源的逻辑关系，作者超越了当时的最先进方法。最近，Carraro等人（2022）开发了一个基于LTN的推荐系统，以克服数据稀疏问题。该模型使用背景知识来快速泛化对新项目和用户的预测。少样本和零样本推理任务在对象导航中也很常见。能够在新对象和陌生环境中导航对于现实世界中具身体代理的实际使用至关重要。在这个背景下，Zhou等人（2023）提出了一种“带有软常识约束的探索”（ESC）方法。ESC首先使用预训练的视觉和语言模型进行语义场景理解，然后使用语言模型根据空间关系进行推理，最后利用PSL来运用符号知识和推理来指导探索。在自然语言处理方面，Pryor等人（2023b）利用领域知识推断目标导向对话的潜在对话结构，以克服数据有限和跨域泛化的挑战。Sikka等人（2020）（前文提及）还发现，NeSy模型的少样本和零样本能力有助于视觉关系检测。具体来说，添加常识推理和知识在数据稀缺的设置中提升了超过10%的性能。

2.4 半监督学习

半监督学习方法通过结合监督学习和无监督学习的目标，能够从标记数据和未标记数据中进行学习。我们推荐阅读关于半监督学习的近期优秀综述（E. van Engelen 和 H. Hoos, 2020）。简而言之，监督学习方法将模型拟合到输入的对应输出标签上，而无监督学习方法则推断数据中的潜在结构。利用标记数据和未标记数据的能力能够提高性能、改善泛化能力，并减少标记成本。

NeSy 是一种功能性的半监督学习方法，它利用知识和领域约束来训练模型。这通过编码领域知识和结构的损失函数来实现，这些损失函数仅依赖于输入和输出，而不需要标签。早期的半监督知识学习工作由 Chang 等人（2007）进行，他们统一并利用任务特定的约束来在输入和输出数据以及可能的标签中编码结构。他们在引文和广告中的命名实体识别任务上评估了他们的半监督学习方法。最近，Ahmed 等人（2022b）引入了神经符号熵正则化损失，以鼓励模型在满足一组输出约束的预测中保持信心。他们展示了这种正则化如何提高文本中实体关系提取任务的模型性能。此外，Stoian 等人（2023）研究了用于软化符号组件逻辑约束的各种 t-范数的效果，并在具有逻辑要求的挑战性道路事件检测数据集（Giunchiglia et al., 2023）上展示了符号损失的结合显著提高了性能。

2.5 噪声数据推理

训练数据中的错误和噪声来源多种多样，例如标记错误、数据输入错误、测量不准确以及固有的变异性。噪声会影响机器学习模型的推理和学习阶段。它可能使学习数据中真正的潜在关系变得困难，并导致错误的预测。数据清洗、正则化、集成学习和数据增强是一些处理噪声数据的技术。

NeSy 技术对处理噪声数据是有益的，因为它们能够改善泛化能力，并提供一种基于知识的正则化方法来防止过拟合。例如，Donadello 等人（2017）表明，在训练标签中存在错误时，使用知识可以增强学习过程的鲁棒性。具体而言，提出的 LTN 模型在标签噪声增加时比独立的深度神经网络目标检测模型对标记错误更具鲁棒性，实现了性能在标记噪声增加时的更可控下降。类似地，Manhaeve 等人（2021a）展示了符号模型在经典 MNIST 加法任务中克服噪声的能力。

在将符号知识和推理与神经网络整合的研究领域中，历史悠久且丰富，过去十年发展迅速。在本研究中，我们通过连接两个基础的机器学习研究领域——神经符号（NeSy）人工智能和基于能量的建模（EBMs）——建立了一个统一的框架，以实现这种整合。我们利用双层优化技术，提出了一种新的算法系列，用于端到端梯度基础学习神经和符号组件参数。本节其余部分概述了 NeSy、EBMs 和双层优化的相关工作。

3.1 神经符号框架

NeSy 通过与符号系统的整合，为神经模型赋予领域知识和推理能力（d’Avila Garcez 等，2002, 2009, 2019；De Raedt 等，2020；Besold 等，2022）。已经提出了各种分类法来对 NeSy 文献进行分类。Bader 和 Hitzler（2005）、d’Avila Garcez 等（2019）以及最近的 Besold 等（2022）提供了使用知识表示、神经符号连接和应用等特征来比较和描述方法的广泛调查。类似地，De Raedt 等（2020）和 Lamb 等（2020）的工作分别提出了将 NeSy 连接到统计关系学习和图神经网络的分类法。Giunchiglia 等（2022）和 van Krieken 等（2022）分别描述了深度学习与约束和符号知识表示的分类法，Dash 等（2022）则聚焦于将领域知识整合到深度神经网络中的分类法。Marconato 等（2023）描述了 NeSy 模型常见的推理错误，Marconato 等（2024）提出了一种集成技术，通过校准模型的概念级别信心来尝试识别这些错误。最近，Wan 等（2024）探索了各种 NeSy AI 方法，主要集中于硬件平台上的工作负载，检查了运行时特性和基础计算操作。最后，van Krieken 等（2024）提出了一种名为 ULLER 的 NeSy 语言，旨在统一主要 NeSy 系统的表示，长期目标是开发一个共享的 Python 库。这些调查和分类法都为比较、理解和组织多样的 NeSy 方法做出了贡献。我们通过引入一个通用的数学框架（第 4 节）和一个新的分类法，专注于不同 NeSy 建模范式可实现的推理能力（第 5 节），来为这些努力做出贡献。

我们将相关 NeSy AI 框架的阐述分为三个广泛的研究领域：带有约束的学习、可微推理层和推理器不可知系统。在以下小节中，我们将定义每个研究领域，并描述属于该领域的显著 NeSy 模型的例子。

3.1.1 带有约束的学习

带有约束的学习的本质是利用领域知识和常识来构造损失函数（Giunchiglia 等，2022；van Krieken 等，2022）。这种方法将损失中捕捉到的知识编码到网络的权重中。一个关键的动机是确保预测与领域知识和常识的一致性。此外，带有约束的学习可以避免使用不符合领域知识的模型时可能需要的昂贵的预测后干预。然而，对于这一类别的 NeSy 模型，推理过程中并不保证与领域知识和合理推理的一致性。

Demeester 等（2016）、Rockt¨aschel 和 Riedel（2017）、Diligenti 等（2017）、Boˇsnjak 等（2017）以及 Xu 等（2018）是带有约束的 NeSy 范式的显著例子。Demeester 等（2016）通过对嵌入进行正则化，鼓励自然语言和知识库表示中的部分排序，从而将领域知识和常识融入其中。类似地，Rockt¨aschel 和 Riedel（2017）利用表示为可微损失的知识，通过逻辑规则来训练一个矩阵分解模型以进行关系提取。Diligenti 等（2017）使用模糊逻辑来衡量模型输出违反约束的程度，并在学习过程中最小化这种程度。Xu 等（2018）引入了一种损失函数，该函数使用概率逻辑语义来表示领域知识和常识。最近，Giunchiglia 等（2023）介绍了一个具有逻辑要求的自主事件检测数据集，Stoian 等（2023）展示了在学习过程中整合这些逻辑要求可以提高泛化能力。

3.1.2 可微推理层

NeSy 的另一个成功领域是可微推理层。与带有约束的学习不同，这类 NeSy 方法的主要区别在于在学习和推理过程中模型架构中都保持了知识和推理的明确表示。可微推理层的一个定义特征是将知识和推理组件实例化为可微分的计算图。可微推理层支持在学习过程中进行自动微分，并在推理过程中进行符号推理。

在可微推理方面的开创性工作包括 Wang 等（2019）、Cohen 等（2020）、Yang 等（2020）、Manhaeve 等（2021a）、Derkinderen 等（2024）、Badreddine 等（2022）、Ahmed 等（2022a）和 Ahmed 等（2023a）。Wang 等（2019）通过引入一个对最大可满足性（MAXSAT）求解器的可微平滑近似作为一层，将逻辑推理和深度模型结合起来。Cohen 等（2020）引入了一种名为 TensorLog 的概率一阶逻辑。该框架将可处理的概率逻辑程序编译成可微分的层。TensorLog 系统是端到端可微分的，并支持高效的并行推理。类似地，Yang 等（2020）和 Manhaeve 等（2021a）分别将可处理的概率逻辑程序编译为可微函数，他们的框架分别是 NeurASP 和 DeepProblog。NeurASP 和 DeepProblog 分别使用答案集编程（Brewka 等，2011）和 ProbLog（De Raedt 等，2007）语义。Winters 等（2022）提出了 DeepStochLog，这是一种基于随机确定性子句文法的 NeSy 框架，定义了可能推导的概率分布。最近，Maene 和 Raedt（2024）提出了 DeepSoftLog，这是 ProbLog 的超集，添加了嵌入的术语，导致概率而非模糊语义。Badreddine 等（2022）提出的逻辑张量网络（LTN）框架使用神经网络预测来参数化表示符号关系的函数，这些函数具有实值或模糊逻辑语义。模糊逻辑函数被聚合以定义满足度。可以通过评估所有可能输出的真值并返回值最高的配置来获得预测。Badreddine 等（2023）扩展了 LTN，并提出了一种在对数空间中将公式端到端固定的模糊运算符配置，这种配置比之前的提议更有效。最近，Ahmed 等（2022a）介绍了一种使用概率电路（PCs）语义编译表示知识和逻辑的可微函数的方法。他们的方法称为语义概率层（SPLs），在可处理的概率模型上进行精确推理，以对预测施加约束，并使用 PC 框架确保 NeSy 模型是端到端可训练的。

正如 Cohen 等（2020）指出的，许多（概率）逻辑中的查询等同于加权模型计数问题，这是一种 #P-完全或更复杂的问题。类似地，Wang 等（2019）研究的 MAXSAT 问题是 NP-困难的。因此，由于深度神经网络可以在与其大小多项式时间内进行评估，没有多项式大小的网络能够实现一般逻辑查询，除非 #P=P，或者 MAXSAT 求解，除非 NP=P。出于这个原因，研究人员在构建更高效的可微推理系统方面取得了进展，例如，通过将概率逻辑限制为可处理的家族（Cohen 等，2020；Ahmed 等，2022a；Maene 等，2024），或者执行近似推理（Wang 等，2019；Manhaeve 等，2021b；van Krieken 等，2023）。

3.1.3 推理器无关系统

最近，研究人员致力于构建具有更通用推理和知识表示能力的 NeSy 框架，这些框架使用表达能力强的数学程序块进行推理。数学程序能够表示变量之间的循环依赖，并在学习和推理过程中确保预测约束的满足。此外，系统的高层推理和训练算法对用于数学程序的求解器是无关的。

显著的推理器无关系统包括 Amos 和 Kolter（2017）、Agrawal 等（2019a）、Vlastelica 等（2020）和 Cornelio 等（2023）的工作。Amos 和 Kolter（2017）将线性约束二次规划问题（LCQP）作为深度神经网络中的层进行集成，并展示了 LCQP 问题的解对于程序参数是可微分的。Agrawal 等（2019a）在 OptNet 的进展中应用了领域特定语言（DSLs），用于实例化 LCQP 程序层。DSLs 提供了指定 LCQP 的语法，表示知识和约束，使优化层更加易于访问。Vlastelica 等（2020）提出了一种方法，通过对程序目标的连续插值来计算混合整数线性程序解的梯度。与 Amos 和 Kolter（2017）以及 Agrawal 等（2019a）的工作不同，Vlastelica 等（2020）的方法支持整数约束，并通过近似程序输出的真实梯度来实现这一点。Cornelio 等（2023）则采取了与这三种方法不同的方式，通过使用强化学习技术来支持更一般的数学程序。具体而言，神经模型的预测被解释为马尔可夫决策过程中的一个状态。从策略中采取的行动用于识别违反约束的组件以获得新状态。新状态提供给求解器，求解器修正违反，并计算奖励。求解器不被假定为可微分的，系统使用 REINFORCE 算法（Williams，1992）和标准策略损失进行端到端训练，而不需要通过求解器进行反向传播。

3.2 能量模型

使用 Gibbs 分布的一个基本动机是任何密度函数都可以通过上述的分布与（可能未归一化的）能量函数 E 来表示。因此，EBMs 是一个统一的框架，适用于概率和非概率方法，并且适用于生成和判别建模。EBMs 被广泛应用于机器学习中，以建模数据和提供预测。

玻尔兹曼机（Ackley 等，1985；Salakhutdinov 和 Larochelle，2010）和赫尔姆霍茨机（Dayan 等，1995）是机器学习文献中最早出现的一些 EBM。Hinton（2002）是另一个开创性的工作，展示了 EBMs 在构建专家混合模型中的有效性。具体来说，单个复杂分布是通过将多个简单分布相乘然后重新归一化来生成的。

最近，EBM 框架已被用于生成建模（Zhao 等，2017；Du 和 Mordatch，2019；Du 等，2023）。Zhao 等（2017）介绍了基于能量的生成对抗网络（EBGANs），将 GAN 判别器视为一个能量函数，该函数将低能量（高兼容性）分配给接近数据流形的点。EBGAN 方法为使用各种架构和学习损失函数的 GAN 判别器提供了一个有原则的框架，实现了比传统 GAN 更稳定的训练。Du 和 Mordatch（2019）提倡直接使用 EBMs 进行生成建模，动机在于其简洁性、稳定性、参数效率、生成的灵活性和可组合性。他们展示了生成结果，性能接近现代 GAN，在分布外分类、对抗性稳健分类和其他任务中取得了最先进的结果。在最近的工作中，Du 等（2023）提出了一种基于能量的扩散模型参数化方法，以支持组合生成。

EBM 框架最近也被证明能改进判别建模（Grathwohl 等，2020；Liu 等，2020）。Grathwohl 等（2020）将判别分类器重新解释为 EBM，提出了联合能量模型（JEM）。JEM 允许通过基于似然的损失在未标记数据上拟合模型的参数，从而提高准确性、鲁棒性、校准和分布外检测。同样，Liu 等（2020）开发了一种用于分布外检测的 EBM，实现了最先进的性能。Liu 等（2020）创建了一种纯判别训练目标（与 JEM 的概率方法相对），并展示了未归一化的能量分数可以直接用于分布外检测。

EBM 框架的主要挑战是处理由 Gibbs 分布引起的潜在难以处理的分区函数。一些早期的 EBM 通过对比散度算法（Hinton，2002）绕过了分区函数，以通过从 Gibbs 分布的马尔可夫链蒙特卡洛（MCMC）采样来估计 EBM 的负对数似然损失的导数。后来的工作通过基于随机梯度 Langevin 动力学（SGLD）的采样器（Welling 和 Teh，2011）改进了传统的有偏 MCMC 采样近似方法。例如，Du 和 Mordatch（2019）使用 SGLD 训练生成 EBM，Grathwohl 等（2020）用于具有负对数似然损失的判别模型。

分数匹配是另一种训练 EBM 的概率方法，它将模型密度的斜率（或分数）拟合到数据分布的分数，避免了估计 Gibbs 分布分区函数的需要（Hyvarinen，2005；P. Kingma 和 LeCun，2010；Song 和 Ermon，2019）。Hyvarinen（2005）最初提出了分数匹配以估计未归一化的统计模型。后来，P. Kingma 和 LeCun（2010）使用分数匹配训练了一种用于图像去噪和超分辨率的 EBM。Song 和 Ermon（2019）建议训练 EBM 来近似数据分布的分数，然后使用 Langevin 动力学进行生成。

EBM 也可以通过非概率损失进行训练，这些损失不需要估计 Gibbs 分布的分区函数（LeCun 等，1998；Collins，2002；Scellier 和 Bengio，2017）。例如，感知器损失，即观察到的训练数据的能量与能量函数的最小值之间的差异，已被用于手写数字识别（LeCun 等，1998）和词性标注（Collins，2002）。最近，Scellier 和 Bengio（2017）提出了平衡传播，一种用于训练具有两次可微分能量函数的 EBM 的两阶段学习算法。平衡传播算法可以用于训练具有任意可微分损失的 EBM。学习算法的一步是最小化给定输入的能量（自由阶段），然后最小化附加了成本函数的能量（推挤阶段）。学习目标的梯度是这两个最小化结果的函数。

EBM 框架已被证明在生成和判别建模中对各种任务有效。EBMs 的多功能性支持建模复杂的依赖关系、模型的组合与融合，并利用标记和未标记的数据。此外，EBMs 提供了一个理论框架，涵盖了概率方法和非概率方法。

3.3 双层优化

最后，在本工作中，我们使用双层优化作为对一般 NeSy 系统的自然学习形式（Bracken 和 McGill，1973；Colson 等，2007；F. Bard，2013；Dempe 和 Zemkoho，2020）。NeSy 学习目标是一个函数，基于通过解决下层程序（该程序封装了符号推理）获得的预测。在更广泛的深度学习社区中，双层优化也出现在超参数优化（Pedregosa，2016）、元学习（Franceschi 等，2018；Rajeswaran 等，2019）、生成对抗网络（Goodfellow 等，2014）和强化学习（Sutton 和 Barto，2018）中。研究人员通常采用以下三种方法之一来处理双层优化。

**隐式微分**。使用隐式微分来分析优化问题解的稳定性有着悠久的历史（Fiacco 和 McCormick，1968；Robinson，1980；Bonnans 和 Shapiro，2000）。这些方法通过计算或近似下层问题解的 Hessian 矩阵，导出上层目标的梯度的解析表达式，有时称为超梯度。这类双层算法对问题结构做出不同的假设（Do 等，2007；Pedregosa，2016；Ghadimi 和 Wang，2018；Rajeswaran 等，2019；Giovannelli 等，2022；Khanduri 等，2023）。在这些基础技术的基础上，深度学习社区提出了包含凸程序函数层的架构，通过隐式微分导出的梯度的解析表达式（Amos 和 Kolter，2017；Agrawal 等，2019a,b；Wang 等，2019）。

**自动微分**。这种方法将推理展开为可微分的计算图（Stoyanov 等，2011；Domke，2012；Belanger 等，2017；Ji 等，2021），然后利用自动微分技术（Griewank 和 Walther，2008）。然而，展开推理计算会创建一个大型复杂的计算图，这可能会积累依赖于求解器的数值误差。

**双层值函数方法**。一种越来越流行的方法是将双层问题重新表述为单层约束程序，使用下层目标的最优值（值函数）来开发不需要计算下层问题 Hessian 矩阵的原则性梯度算法（V. Outrata，1990；J. Ye 和 L. Zhu，1995；Liu 等，2021；Sow 等，2022；Liu 等，2022, 2023；Kwon 等，2023）。现有的双层值函数方法并不直接适用于 NeSy 系统，因为它们通常假设下层问题是无约束的，目标是光滑的。带有约束的双层优化是一个开放的研究领域。迄今为止，隐式微分方法在下层问题结构上做出了强假设（Giovannelli 等，2022；Khanduri 等，2023）。据我们所知，我们的框架是首个在下层问题约束下工作的值函数方法。

4 神经符号模型的数学框架

在掌握了广泛的动机和背景之后，在本节中，我们介绍了神经符号能量模型（NeSy-EBMs）：一个统一的 NeSy 数学框架。直观地说，NeSy-EBMs 将神经符号接口形式化为函数的组合。以下部分的理论和符号表示将用于本文其余部分。

**4.1 神经符号能量模型**

NeSy-EBMs 是一类 EBM（LeCun 等，2006），将深度架构与通过能量函数显式编码的符号关系相结合。EBM 能量函数衡量变量的兼容性，其中低能量状态对应高兼容性。对于 NeSy-EBMs，高兼容性表明变量与领域知识和常识一致。在下一节中，以下提供的正式 NeSy-EBM 定义将结合直观的 NeSy 建模范例进行说明。

我们的论文专注于这个列表中的第一个也是最常见的任务：预测、分类和决策制定（7）。使用NeSy-EBMs进行预测涵盖了各种推理框架，包括概率、逻辑、算术及其组合。它能够表示包括DeepProbLog（Manhaeve等人，2021a）、LTNs（Badreddine等人，2022）、语义概率层（Ahmed等人，2022a）和NeuPSL（Pryor等人，2023a）在内的著名NeSy系统的标准应用，仅举几例。

5 NeSy建模范式的分类

使用上一节介绍的NeSy-EBM框架，我们引入了一个由神经符号接口决定的NeSy建模范式的分类。我们的建模范式的特征是神经组件如何在符号组件中被用来定义（7）中的预测程序。为了形式化建模范式，我们引入了一个额外的抽象层，我们称之为符号势能，用ψ表示。此外，我们将符号势能收集到符号势能集合中，用Ψ表示。

符号势能通过它们在制定（7）中的预测程序中所扮演的角色来组织符号组件的参数。

**建模范式**是符号势函数集合的规格说明，以及属于该集合的势函数的领域。我们在接下来的子节中按复杂度递增顺序描述了三种建模范式：深度符号变量（DSVar）、深度符号参数（DSPar）和深度符号势函数（DSPot）。表 1 总结了这些建模范式。值得注意的是，许多 NeSy 系统可以表示多种范式，例如 DeepProbLog（Manhaeve 等，2021a）、逻辑张量网络（Badreddine 等，2022）、语义概率层（Ahmed 等，2022a）和 NeuPSL（Pryor 等，2023a）。然而，所列示例是对应范式的特定实例。虽然这些属性和应用通常具有代表性，但在某些情况下，建模范式可能不完全符合此处列出的类别。

5.1 深度符号变量

深度符号变量（DSVar）范式通过一个捕捉领域知识的损失函数高效地训练神经组件。该范式的代表方法包括语义损失网络（Xu 等，2018）和带逻辑约束的学习（Giunchiglia 等，2022）。简而言之，神经组件直接预测单个符号势函数中目标的值。换句话说，神经输出与目标之间存在一一映射。但需要注意的是，这种映射不一定是满射的，即可能存在没有对应神经输出的目标变量。在讨论建模范式时，我们使用术语“潜变量”来指代在 DSVar 模型中没有神经输出的目标变量。

与其他建模范式相比，DSVar 建模范式通常产生最简单的预测程序。这是因为神经模型固定了一部分决策变量，从而使预测程序更小。通过将上述定义中的函数（方程式13）添加到符号势函数中，可以实现这一点，从而为与神经模型预测不匹配的变量值分配无限能量。然而，正因为这个原因，DSVar 模型的符号组件无法用于解决神经组件引起的约束违背问题。相反，DSVar 模型依赖学习来训练神经组件以遵守约束。因此，DSVar 模型通常具有快速的推理和学习过程，但不能用于约束满足，如表1中所述。以下示例展示了 DSVar 范式。

DSVar 建模范式在我们的实证分析中被应用于通过知识驱动的损失在半监督环境下拟合神经参数。然而，神经模型预测只覆盖目标值的一个子集，模型无法解决规则违背问题。因此，当神经模型预测的数字标签违反数独规则时，预测的目标变量也将违反规则。

5.2 深度符号参数

深度符号参数（DSPar）建模范式允许目标和神经预测值不相等或代表不同的概念。支持该技术的著名 NeSy 框架包括 DeepProbLog (Manhaeve 等, 2021a)、语义概率层 (Ahmed 等, 2022a) 和逻辑张量网络 (Badreddine 等, 2022)。简而言之，神经组件被应用为符号势中的一个参数。这种范式允许符号组件在预测过程中纠正神经组件造成的约束违背。因此，DSPar 的推理和学习过程通常比 DSVar 模型更加复杂，但可以执行约束满足，如表1所示。

示例 2. 再次考虑图 2 所示的视觉数独解题问题。与 DSVar 模型一样，DSPar 模型的神经组件是一个数字分类器，预测 MNIST 图像的标签。然而，神经组件的数字分类用作符号组件中的初始预测，作为概率模型的先验。然后，符号组件用于量化规则违规以及神经输出与目标变量之间的差异。

目标变量 y 是手写数字和谜题空白条目的分类标签。符号输入表示两个谜题位置是否在同一行、同一列或同一框内。神经模型由神经组件预测的手写数字的分类标签组成。符号参数 wsy 用于塑造单一的符号势能函数 ψ，该函数量化数独规则违规的数量。

DSPar 建模范式具有广泛的适用性。例如，在我们的实证分析中，DSPar 建模范式被应用于约束满足、微调、小样本和半监督环境中。然而，请注意，DSVar 和 DSPar 模型只有一个固定的符号势。这一特性使这些范式非常适合专门任务，但在开放式环境中适用性较低，因为相关领域知识依赖于上下文。为了解决这一挑战，以下建模范式利用生成模型在开放式任务中执行推理。

5.3 深度符号势

我们提出的最先进范式——深度符号势（DSPot），通过符号推理工具增强了深度模型。Pan 等人（2023）提出的 Logic-LM 流水线是该建模范式的一个极佳例子。在高层次上，神经组件是一个生成模型，用于从一组符号势中采样，进而定义符号组件。具体来说，输入数据被用作上下文，以检索相关领域知识并制定程序，在开放式问题中执行推理。

例子 3. 问答是指对以自然语言提出的问题给出回应的问题。图 3 显示了一组字谜题，要求根据以自然语言表达的信息给出一组对象的顺序，并设计了一个用于问答的 NeSy-EBM。神经组件是一个大型语言模型 (LLM)，它接收到字谜题作为提示，并生成一个符号框架语法内的程序。符号框架使用生成的程序来实例化符号组件，用于执行演绎推理。

形式上，目标变量 y 代表对象的顺序，在此示例中没有符号输入。神经输入是包含字谜提示的自然语言文本。神经模型是一个 LLM，它生成用于声明性符号建模框架的语法，以创建符号势。例如，神经模型生成的符号势可能是表示顺序的算术约束违反的总量。最后，符号参数 wsy 用于塑造符号势函数。

在我们看来，DSPot 是唯一适用于真正开放式任务的范式。此外，DSPot 增强了生成模型（如 LLM）的符号推理能力一致性。该特性在我们的实证分析中的约束满足和联合推理实验中得到了证明。DSPot 的局限性在于神经组件必须学习从大量潜在集合中进行采样。例如，在这个例子中，LLM 必须可靠地生成语法来定义解决文字问题的符号势。LLM 需要大量的计算资源来训练，然后为特定的 NeSy 框架进行微调。此外，推理时间取决于采样的符号势。如果神经组件采样到一个复杂的符号势，推理可能会变慢。表 1 概述了这些优势和局限性。

6 Neural-Symbolic Energy-Based Models 的学习技巧集

在确定了各种建模和推理范式后，我们转向学习问题。本节形式化了 NeSy-EBM 学习问题，识别挑战并提出有效解决方案。从高层次来看，NeSy-EBM 学习的目标是找到一个能量函数的权重，使得接近训练数据中提供的真实标签的目标和神经输出具有较高的兼容性得分（较低的能量）。此外，通过求解一个复杂的数学规划问题来获得 NeSy-EBM 的预测，这带来了若干学习障碍。例如，NeSy-EBM 的预测可能无法根据模型参数进行微分，且自动微分的直接应用可能无法实现或无法为学习目标产生合理的下降方向。更进一步，即便预测是可微的，它们的梯度也是能量函数在其最小化点的性质的函数，而这些性质的计算代价极高。我们为 NeSy-EBM 创建了一般性和原则性的学习框架来应对这些挑战。

本节分为四个子节。我们首先介绍初步的符号和 NeSy-EBM 学习的一般定义。接着，我们展示 Dickens 等人 (2024a) 首次提出的学习损失分类，并扩展了 Dickens 等人 (2024b) 提出的理论微分结果。这些学习损失为四种 NeSy-EBM 学习框架提供了动机和组织方式，一种用于分别学习神经和符号权重，另外三种用于端到端学习。

6.1 NeSy-EBM 学习

6.2 学习损失

NeSy-EBM 的学习损失泛函 L i Li 可分为三部分：神经损失、基于值的损失和基于最小化器的损失。在这一小节中，我们将正式定义这三种损失类型。

6.2 学习损失

NeSy-EBM 的学习损失泛函可分为三部分：神经损失、基于值的损失和基于最小化器的损失。在这一小节中，我们将正式定义这三种损失类型。

从高层次来看，神经损失衡量神经组件的质量，与符号组件无关。然后，基于值的损失和基于最小化器的损失则衡量整个 NeSy-EBM 的质量。此外，基于值的损失和基于最小化器的损失是将参数化的能量函数和训练样本映射到实值的泛函，分别记作。学习损失组件通过求和聚合：

6.2.1 神经学习损失

神经学习损失是神经网络输出和神经标签的标量函数，记作。例如，神经学习损失可以是许多分类预测设置中常见的二元交叉熵损失。通过反向传播和标准的基于梯度的算法，可以实现对神经组件参数的神经学习损失的最小化。

6.2.2 基于价值的学习损失

基于价值的学习损失严格依赖于通过最小化由能量定义的目标值来调整模型权重。更正式地，设定一个目标函数，它将兼容性分数、目标变量和训练样本映射到一个标量值：

图4展示了一个潜在最优值函数的示例。直观地说，潜在最优值函数是为每个潜在变量定义的符号组件集合的最大下界。

最简单的基于价值的学习损失是能量损失，记作。能量损失是潜在最优值函数的值。

最小化能量损失鼓励能量函数的参数在给定观测到的输入和目标变量的真实值时产生低能量。这个损失的直觉基础是期望目标值的能量应该较低。然而，需要注意的是，这个损失并不考虑不正确目标变量值的能量。

这种情况的一个极端示例涉及两个能量函数。在第一个函数中，最小化点对应于目标的真实值，而在第二个函数中，最大化点对应于目标的真实值。尽管这两个函数在技术上可能具有相同的能量损失，但第一个能量函数显然更优。因此，能量损失并不总是导致具有更好预测的能量函数。

结构感知器损失（Structured Perceptron loss），记作，通过提高当前能量最小化点的能量并降低目标真实值的能量来推动模型的改进（LeCun et al., 1998; Collins, 2002）。具体来说，结构感知器损失是潜在最优值函数和完整最优值函数之间的差异，

尽管结构感知损失在技术上会鼓励目标期望值成为能量最小化者，即有效预测，但对于某些能量函数架构，它仍然存在退化解决方案。例如，可以最小化所有目标值的能量，导致能量函数崩溃（所有目标的能量相等），没有预测能力。

能量和结构感知损失需要正则化和特定的能量架构才能在实践中良好工作。例如，自然推动其他目标值上升的能量架构，当推动期望目标下降时。具有有限总能量质量的能量函数是具有此属性的函数示例。

基于值的损失相对于神经和符号权重的梯度是非平凡的，因为能量函数和能量函数评估的点都依赖于神经输出和符号权重，如（21）中最优值函数的定义所示。尽管如此，Milgrom和Segal（2002）提供了一个通用定理，提供了最优值函数相对于问题参数的梯度（如果存在）。我们在以下定理中专门化他们的结果，用于NeSy-EBMs的最优值函数。

定理6适用于任意目标变量域和能量函数，因此具有广泛的适用性。然而，需要强调的是，定理6指出，如果价值函数是可微分的，那么梯度的形式为（28）和（29）。Milgrom 和 Segal (2002) 还提供了保证任意决策变量域下最优价值函数可微分的充分条件。除了 Milgrom 和 Segal（2002）的工作外，还有大量关于分析最优价值函数敏感性和保证其可微分性的文献，包括 Danskin (1966) 关于参数化目标函数的开创性论文和 Rockafellar (1974) 关于参数化约束的研究。我们建议读者查阅这些文章，以了解保证价值函数可微分性的性质，从而确保 NeSy-EBM 价值导向损失的可微分性。

确保最优价值函数可微分的条件以及计算符号组件关于其参数的梯度的可处理性直接与前面小节中讨论的能量函数架构和建模范式相关。具体而言，如果需要原则性的梯度基础学习，则实践者必须设计符号潜力函数，使其满足以下条件：1）对神经网络输出和符号潜力可微分；2）符号潜力对其参数的梯度是可处理的；3）满足确保目标变量上最小化价值的可微分性所需的充分条件。

性能指标不总是与基于价值的损失对齐。此外，它们已知存在退化解（LeCun et al., 2006; Pryor et al., 2023a）。例如，如果没有精心设计的归纳偏置，（26）中的能量损失可能仅仅学会减少所有目标变量的能量，而没有改善 NeSy-EBM 的预测性能。这一问题的根本原因之一是，基于价值的损失并不是 NeSy-EBM 预测的直接函数，如（7）所定义，即基于价值的损失不是能量最小化的函数，而这正是我们接下来要讨论的内容。

6.2.3 最小化器基础的学习损失

最小化器基础的损失是将可微分损失（如交叉熵或均方误差）与能量最小化器组合的结果。从直观上看，最小化器基础的损失惩罚那些使预测与标记训练数据相距较远的参数。在本小节的其余部分，我们将正式定义最小化器基础的学习损失。此外，为了完整性，我们推导了最小化器基础的损失对符号权重和神经网络权重的梯度的一般表达式。然而，正如将会展示的，直接计算最小化器基础损失的梯度需要对能量函数做出苛刻的假设，并且计算可能是不切实际的。此外，梯度推导激励了不对最小化器基础损失执行直接梯度下降的学习算法。因此，在下一小节中，我们提出了不需要最小化器梯度的算法。为了确保最小化器基础的损失是定义良好的，我们假设每个训练样本都有一个唯一的能量最小化器，记作 y*，这一假设在下面进行了形式化。

在机器学习文献中，(38) 和 (39) 中的雅可比矩阵应用于 (33) 和 (34) 被称为超梯度，它们用于超参数优化和元学习（Do et al., 2007; Pedregosa, 2016; Rajeswaran et al., 2019）。通常，为了估计超梯度，会对 (逆) Hessian 矩阵进行近似。

6.3学习算法

接下来，我们介绍四种原则性的方法来学习 NeSy-EBM 的神经和符号权重，以最小化前面小节中介绍的损失函数：1) 模块化方法，2) 梯度下降法，3) 双层值函数优化，和 4) 随机策略优化。这四种技术的定义将被介绍，并且我们将讨论它们相对于第2节中的动机应用和第5节中的建模范式的优缺点。

6.3.1 模块化学习

第一种也是最简单的 NeSy-EBM 学习技术是将神经组件和符号组件作为独立模块进行训练和连接。例如，神经组件可以通过反向传播和 Adam 优化器来训练，以优化神经标签下的神经损失。然后，符号组件可以使用适当的方法来训练，以优化值函数或最小化器基础的损失。在符号权重学习过程中，神经组件的权重保持不变。

按照定义，模块化学习算法不是端到端训练的，即神经和符号参数不是共同优化以最小化学习损失。因此，模块化方法可能难以找到一个学习损失与端到端技术一样低的权重设置。此外，模块化方法不适用于微调和适应，并且需要标签来训练神经组件。因此，模块化学习不能用于无监督或半监督设置中的神经参数学习。

尽管如此，模块化学习方法因其简单性和广泛适用性而备受青睐。重要的是，这些方法对神经-符号接口没有任何假设；因此，模块化学习对第5节中介绍的每种建模范式都有效。值得注意的是，由于复杂的神经-符号接口，DSPot 模型的最小化器和值函数通常对神经权重不可微分。然而，由于模块化技术不是端到端的，这并不是问题。此外，模块化学习可以用于训练 NeSy-EBM 进行约束满足和联合推理、零样本推理以及处理噪声数据的推理。现有许多成熟且有效的模块化神经和符号学习算法（参见 Srinivasan 等（2021）对符号权重学习算法的最新分类）。

6.3.2 梯度下降

梯度下降是一种概念上简单但在实践中常常困难的端到端 NeSy-EBM 训练技术。具体来说，前一节中推导出的梯度被直接用于梯度基算法，以优化 NeSy-EBM 损失函数的神经和符号权重。反向传播和定理 6 为一般类的 NeSy-EBM 提供了相对便宜的神经和基于值的损失的梯度。此外，对于较小的 NeSy-EBM 类别，能量最小化器的梯度可能存在并且计算便宜。例如，如果能量最小化器通过简单的闭式表达式确定（例如，如果推理是一个无约束的强凸二次规划或有限计算图）。

如第 6.2 节所示，完全表达的 NeSy-EBM 的学习损失梯度仅在某些条件下存在。此外，计算梯度通常需要有关能量函数在最小化器处的昂贵的二阶信息。因此，直接梯度下降仅适用于具有专门架构的相对小的 NeSy-EBM 类别，这些架构确保了原则性和高效的梯度计算。这些专门的架构不太可能支持诸如 DSPar 和 DSPot 之类的更复杂的建模范式。然而，提供具有这种架构的 NeSy-EBM 的情况下，梯度下降技术可以用于第 2 节中列出的所有动机应用。

6.3.3双层价值函数优化

完整内容请参考原文

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END

神经符号能量模型的数学框架建模范式分类及学习技术套件算法张量微分

现代汉语笔记

音乐入门零基础知识

神经符号能量模型的数学框架建模范式分类及学习技术套件算法张量微分

图灵奖得主《龙书》作者万字长文讲解：什么是「抽象」字符串哈希算法标识符

初中数学解题技巧必看

编译原理：第三章词法分析–码途拾遗

分类编目基本知识课件ppt

四级电子商务师模拟考试pdf