张俊林：通向之路——大型语言模型（）技术精要|神经元模型制作方法_火山地貌

潮流之巅：NLP研究范式的转换

学习者：从无尽数据到海量知识

规模效应：当LLM越来越大时会发生什么

首先，我们先看在预训练阶段，随着模型规模逐步增大，会发生什么。OpenAI在“Scaling Laws for Neural Language Models”中专门研究了这个问题，并提出LLM模型所遵循的“伸缩法则”（scaling law）。如上图所示，这个研究证明：当我们独立增加训练数据量、模型参数规模或者延长模型训练时间（比如从1个Epoch到2个Epoch），预训练模型在测试集上的Loss都会单调降低，也就是说模型效果越来越好。

人机接口：从In Context Learning到Instruct理解

1. 神秘的In Context Learning

神奇的Instruct理解

In Context Learning和Instruct的联系

智慧之光：如何增强LLM的推理能力

1. 基于Prompt的方法

2. 代码预训练增强LLM推理能力

上图给出了一份实验数据，来自于论文“On the Advance of Making Language Models Better Reasoners”，其中GPT3 davinci就是标准的GPT 3模型，基于纯文本训练；code-davinci-002（OpenAI内部称为Codex）是同时在Code和NLP数据上训练的模型。如果比较两者效果，可以看出，不论采用具体哪种推理方法，仅仅是从纯文本预训练模型切换到文本和Code混合预训练模型，在几乎所有测试数据集合上，模型推理能力都得到了巨大的效果提升，比如我们以“Self Consistency”方法为例，在大多数据集合上的性能提升，都直接超过了20到50个百分点，这是很恐怖的性能提升，而其实在具体推理模型层面，我们什么也没做，仅仅是预训练的时候除了文本，额外加入了程序代码而已。

先说图上推理问题，如上图所示，假设我们有办法能够把复杂问题拆解成由子问题或者子步骤构成的图结构，图中的节点是子问题或者子步骤，图中的边代表了子问题之间的依赖关系，就是说只有回答好子问题A，才能回答子问题B，而且图中大概率存在循环结构，就是反复做某几个子步骤。假设我们能够得到上述的子问题拆解图，那么可以根据依赖关系，引导LLM一步一步按照图结构，回答必须首先回答的子问题，直到推导出最终答案。

THE END

张俊林：通向之路——大型语言模型（）技术精要

类脑计算开启大模型计算新范式——挑战获得诺贝尔奖的静息电位脉冲神经元神经网络

模型百家争鸣，如果集中精力做一个，是不是更容易成功算法计算机人工智能ai模型自然语言处理人工神经网络

比人工智能更可怕的是……算法图灵机器人计算机大模型神经网络

半导体所在仿生覆盖式神经元模型及学习方法研究中获进展

atureeveurosci典藏综述：树突百年，计算模型点亮树突功能

一种基于的电力设备故障区域提取方法

（数据科学学习手札）多层感知机原理详解ython与实现费弗里

脉冲神经网络与小样本学习附腾讯云开发者社区

张俊林：通向之路——大型语言模型（）技术精要

人工神经元模型的基本原理是什么

人工神经元再进一步，存储记忆已成现实

第章神经网络控理论