上新打造轻量高效的引擎

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。

作为自然语言处理领域全球顶级的学术盛会之一 ,ACL 2025 于近日在维也纳召开。来自微软亚洲研究院的多篇论文入选,我们将通过两期“科研上新”为大家带来研究院入选 ACL 2025 的精选论文解读。本期“科研上新”一次性奉上五项最新成果,聚焦使大语言模型和语音模型在预训练、部署和持续学习中更快速、更小巧或更高效的研究工作,涵盖语音合成、边缘推理、多模态检索、上下文压缩及持续预训练等方向。

本期内容速览

01. 无向量量化的自回归语音合成

03. OMGM:多粒度与多模态协同的高效多模态检索方法

04. 面向隐式记忆感知的大模型上下文压缩预训练方法

05. Velocitune:基于学习速度的动态领域重加权持续预训练方法

近年来,语音合成在文本到语音(TTS)领域取得显著进展。然而,以 VALL-E 为代表的主流系统仍普遍依赖向量量化技术,将连续语音波形压缩为离散符号序列。该系统虽在序列建模层面带来便利,但也面临采样噪声、频谱失真与质量波动等固有风险;同时,量化过程本身不可避免地会造成信息损失的后果,削弱模型对语音细节的精细刻画能力。为突破上述瓶颈,学术界开始关注无需离散编码的连续建模范式,以提升合成保真度与系统鲁棒性。

基于此,微软亚洲研究院的研究员们提出了一种新型自回归语音合成框架 MELLE,直接对连续梅尔频谱图进行逐帧建模,完全摒弃了向量量化。具体而言,模型以预测连续频谱帧为训练目标,以均方误差作为主体回归损失,并设计了“谱流动损失”(spectrogram flux loss)显式约束帧间频谱变化,从而更准确地捕捉语音的动态演化特性。为进一步增强生成多样性,MELLE 还引入了变分推断机制,在隐空间注入可学习的潜变量,使合成语音在保持高保真度的同时具备更丰富的表现力。

研究员们在 LibriTTS 公开语料上对 MELLE 进行了系统评估,并与 VALL-E 及其改进版本展开了对比。主观与客观指标共同表明,MELLE 在音质、自然度、鲁棒性及推理效率维度均显著优于现有方法。展示样例显示,该方法有效抑制了由量化采样引发的频谱失真。此外,得益于单阶段自回归架构,MELLE 结构简洁、训练收敛迅速,且易于部署与扩展,为高质量语音合成提供了新的可行方案。

大语言模型(LLMs)近年来在多种任务中表现卓越,但随着对隐私保护和边缘部署需求的增长,如何在计算资源受限的设备上高效运行这些模型成为一项重大挑战。传统的全精度模型在内存占用、计算延迟和能耗方面存在显著瓶颈,限制了其在移动设备和嵌入式系统中的应用。为应对这一问题,科研人员开始探索低比特量化技术,其中三值量化(即权重取值为{-1, 0, 1})因能够在压缩率和性能之间保持良好的平衡而备受关注。

视觉问答任务(VQA)要求模型理解图像的语义内容并回答相关问题,近年来,多模态大语言模型(MLLM)通过融合图像与文本信息,在该领域展现出了强大的推理能力。然而,知识驱动的视觉问答(KB-VQA)进一步提出挑战:问题不仅依赖图像内容,还需借助外部知识库获取补充信息。因此,检索增强生成(RAG)成为一种有效的策略,能够从知识库中检索相关内容用于生成回答。但在多模态场景下,检索过程面临模态多样性与知识粒度差异性的双重挑战,现有方法尚未充分挖掘这些因素协同的潜力。

为此,研究员们提出了一个名为 OMGM 的多模态 RAG 系统,采用由粗到细的多阶段检索策略,在查询与知识库之间协调多粒度与多模态信息,从而提升检索效率和回答质量。系统分为三个阶段:第一阶段进行粗粒度的跨模态实体检索,在图像与实体摘要之间建立初步匹配,筛选出候选实体;第二阶段利用混合粒度的多模态融合重排序器,对图像与文本片段进行联合评估,进一步精炼候选实体;第三阶段通过文本重排序器,从最相关实体的知识内容中提取细粒度片段,强化生成过程。整个流程中,各阶段的相似度评分得分依次传递、逐层融合,从而确保检索过程的文脉一致性以及语义连贯性。

在 InfoSeek 与 Encyclopedic-VQA 两个 KB-VQA 基准数据集上的实验表明,OMGM 在检索性能方面达到了领先水平,并在问答任务中取得了具有竞争力的结果。系统不仅在准确性上优于现有的多阶段检索方法,还在效率上实现了优化,避免了传统方法中高计算成本的问题。进一步的消融实验验证了各检索步骤的独立贡献,为多模态检索系统的设计提供了实证依据。

OMGM 的核心创新在于其对模态与粒度的协同建模能力,通过逐步缩小检索范围、融合多模态信息,实现对复杂查询的精准响应。该方法既适用于 KB-VQA 任务,也为其他需要多模态信息整合的生成任务提供了通用框架。

在现实应用,如 RAG 和上下文学习等任务中,LLMs 需要处理长文本上下文。但随着输入序列长度的增加,推理成本呈二次增长,尤其在资源受限的边缘设备上,这一问题更为突出。为应对这一挑战,科研人员提出了上下文压缩方法,其中隐式压缩通过将文本转换为密集嵌入向量(记忆槽)来实现信息浓缩,具有更高的压缩率和效率。

本文提出了一种名为 PCC(Pretraining Context Compressor)的上下文压缩架构,采用解耦设计,使压缩器与下游 LLMs 分离,以保持压缩器的轻量化。该架构由编码器和转换器组成。编码器将文本压缩为嵌入表示,转换器则调整嵌入维度和语义以适配不同的 LLMs 解码器。

为提升压缩器的泛化能力,研究员们设计了两阶段训练流程:一,预训练阶段,包括文本重构和语言补全任务,旨在使压缩后的记忆槽既能回忆原始内容,又能辅助生成后续文本;二,微调阶段,在特定领域数据上进行少量训练,以适应不同任务需求。

实验部分涵盖了多个方面,包括预训练任务设置、模型规模、压缩率选择、效率评估及跨模型适配能力。结果显示,4倍和16倍压缩率在准确性与效率之间取得了良好的平衡,4倍压缩几乎能够完美重构原文,而16倍压缩则在保持信息完整性的同时显著提升了推理速度。尽管更高压缩率(如128倍、256倍)仍能保留部分信息,但信息损失明显增加,训练难度也随之加大。

在下游任务中,PCC 在三大领域八个数据集上的表现均优于现有的主流压缩方法,显示出强大的适应性和泛化能力。尤其在 RAG 问答、上下文学习和角色扮演任务中,PCC 在未进行特定数据集微调的情况下仍取得了优异成绩,验证了其作为通用压缩器的潜力。此外,PCC 在不同 LLMs 解码器(如 Mistral、Qwen、Phi 等)上的表现也证明了其良好的兼容性。

在大语言模型的持续预训练过程中,如何有效整合来自多个领域的数据以提升模型泛化能力,是当前研究的关键问题。传统方法通常采用静态或经验性的数据加权策略,或通过损失差值动态调整数据比例,但在面对持续预训练场景下的动态表现和不平衡问题时,该方法的效果有限。

为此,研究员们提出了基于“学习速度”的动态领域重加权方法 Velocitune。该方法通过实时监测各领域的损失下降速率,评估其“学习进度”,并依据此动态调整领域数据在训练过程中的采样权重,从而实现领域间更平衡的学习和更高效的知识整合。

Velocitune 的核心思想是利用“学习速度”作为度量各领域学习程度的指标,具体通过模型在每个领域的初始损失、目标损失与当前损失之间的相对关系进行量化。方法包含三个主要步骤:首先在内评估已有模型在各领域的当前损失;其次,基于 Chinchilla scaling law 预测目标损失;最后,依据当前与目标损失之间的进度差异,计算各领域的学习速度并据此更新数据采样权重。该过程无需额外的监督信号或领域标签,具备高度的通用性和扩展性。

研究员们在多个真实数据集和语言模型上对该方法进行了验证,涵盖数学与编程推理和系统命令生成任务。结果显示,Velocitune 在提升领域权重收敛速度的同时,显著提升了模型在下游任务中的表现。相比于静态加权和基于损失差异的方法,Velocitune 在准确率、泛化能力和训练效率方面均展现出明显优势,特别是在领域分布不均或数据质量差异较大的场景中效果更为显著。

此外,研究员们还通过消融实验分析了 Velocitune 中各组成模块的独立贡献,验证了目标损失估计和数据排序在性能提升中的作用,进一步强调了动态数据加权策略在多领域持续预训练中的潜力和重要性。该方法不仅提升了持续预训练的适应性,也为多领域数据整合提供了新的思路。

THE END
0.数据库约束详解考虑约束的方面 实体完整性:例如不能存在完全无法区分的两条记录 域完整性:例如规定其取值范围 引用完整性:关联性表之间的引用关系要完整 用户自定义完整性:根据制定表的实际情况,进行的其它规定 约束的分类 ① 根据数据列的限制 单列约束:每个约束只约束一列 jvzquC41dnuh0lxfp0tfv8Sa\U^0c{ykenk0fnyckny03;7739722
1.软件测试MySQL唯一约束详解什么是唯一约束? 唯一约束是一种用于限制数据库表中某列或多列取值的约束,确保这些列中的值各不相同。在定义了唯一约束的列上,数据库系统会自动检查插入或更新操作,确保数据的唯一性。如果有重复的值要被插入,或者违反了唯一性约束的值要被更新,数据库会拒绝这些操作并返回错误。 jvzquC41dnuh0lxfp0tfv8frgzefkq1ctzjeuj1fgzbkux135:73>82;
2.Unique约束和check约束UNIQUE约束和CHECK约束是可用于在 SQL Server 表中强制实施数据完整性的两种约束类型。 这些是重要的数据库对象。 本文包含以下各节。 UNIQUE constraints CHECK constraints Related tasks UNIQUE constraints 约束是 SQL Server 数据库引擎为你强制执行的规则。 例如,您可以使用UNIQUE约束确保在非主键的jvzquC41fqit0vnetqyph}3eqo5{j6hp1uwm1{jncvoppjq/fczbdjxgu1zbduju1wtjs~j/eqttv{fkpvy.cwi/ejkdm6hqpuzscrsvuA|jg€Busn3tg{{gt/|ft::
3.表约束检查约束可以限制列可以接受的值。 在卡片引用应用程序方案中,卡片颜色和卡片类型需要具有一组特定的值:一个完美的检查约束条件,以便不满足此条件的值将被拒绝。 在某些情况下,定义一组默认值是不切实际的。 假设一列只允许一到 10000 之间的数字。 为 10000 个数字创建值列表是不必要的,并且会占用大量劳动力。jvzquC41nggsp7rketutqoy0eqs0|q2ep1zscrskpi5nqmzngu5eg|nip/g.fjyc/ouegu2ykvn.cmx17/zbduj/eqttv{fkpvy
4.UNIQUE约束|MicrosoftLearn可以使用 UNIQUE 约束确保在非主键列中不输入重复的值。尽管 UNIQUE 约束和 PRIMARY KEY 约束都强制唯一性,但想要强制一列或多列组合(不是主键)的唯一性时应使用 UNIQUE 约束而不是 PRIMARY KEY 约束。 可以对一个表定义多个 UNIQUE 约束,但只能定义一个 PRIMARY KEY 约束。 而且,UNIQUE 约束允许 NULL 值,这一点与 PRIMARY KEY 约束不同。不过,当与参与 UNIQUE 约束的任何值一起jvzquC41oujo0vnetqyph}3eqo5{j6hp1noctjw{1oy2;:688
5.CONSTRAINT子句您可以在 ALTER TABLE 和 CREATE TABLE 陳述式中使用 CONSTRAINT 子句來建立或刪除限制式。 CONTRAINT 子句有兩種類型:一種用來在單一欄位建立限制式,另一種則用於在多個欄位建立限制式。 附註:Microsoft Access 資料庫引擎不支援搭配非 Microsoft Access 資料庫使用 CONSTRAINT 或任何資料定義語言陳述式。 請改為使用jvzquC41uwvqq{y0okisq|thv0ipo8j/v}0vxuke1ipp|ytcktu/.J7'CJ&;9*G7'>G'J:/g7853>>5/39:c69gd93bf<5/83638A<53;7f
6.SQL语言精要主键列中的值不允许修改或者更新; 主键值不能重用(如果某行从表中删除,它的主键不能赋给以后的新行) SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML, 数据定义语言DDL,数据控制语言DCL。 1、数据查询语言DQL ( Data Query Language) ​ 数据查询语言DQL用于检索数据库 jvzquC41o0hmqp3euft/pny1ygoykwd6:8689B<1ctzjeuj1fgzbkux1336369<66
7.农村金融研究考虑桥梁限重标志对驾驶员行为约束的车辆荷载效近年来随着我国经济的高速发展,公路交通运输量和车辆荷载均逐年增大,各地车辆超重现象普遍,严重影响了在役桥梁的安全可靠性。本文是一篇农村金融研究投稿的论文范文,主要论述了考虑桥梁限重标志对驾驶员行为约束的车辆荷载效应研究。 摘要:通过对某市货车驾驶员进行问卷调查,研究了桥梁限重标志对货车驾驶员驾驶行为的约束jvzq<84yyy4zwnvkmct/exr1lktsqwlny1;83A;0jvsm
8.检查约束UNIQUE constraints and CHECK constraints are two types of constraints that can be used to enforce data integrity.jvzquC41oujo0vnetqyph}3eqo5fp6zu1noctjw{1oy2:@:720gtr
9.唯一条件约束与检查条件约束要加入的CHECK條件約束會指定CheckTbl資料表中至少要有一個資料列。 不過,因為資料表中沒有任何資料列,能據以檢查這個條件約束的條件,所以ALTER TABLE陳述式會成功執行。 執行CHECK陳述式期間不會驗證DELETE條件約束。 因此,若在具有某些類型之 CHECK 條件約束的資料表上執行DELETE陳述式,可能會產生非 jvzquC41fqit0vnetqyph}3eqo5{j6yy1uwm1{jncvoppjq/fczbdjxgu1zbduju1wtjs~j/eqttv{fkpvy.cwi/ejkdm6hqpuzscrsvu
10.有關資料驗證的詳細資訊若資料是以複製或填滿方式輸入,就不會出現訊息。 若要防止使用者以拖放儲存格的方式複製並填滿資料,請移至 [檔案] > [選項] > [進階] > [編輯選項] > 清除 [啟用填滿控點與儲存格拖放功能] 核取方塊,然後保護工作表。 已關閉手動重算功能:如果已開啟手動重算功能,未計算的儲存格可能會造成資料無法正確驗jvzquC41uwvqq{y0okisq|thv0ipo8j/jq0qokkeg5&G?*;E'>:'N>';9+:E.J:'D9&:@*G8'?7'B>'G;+B;.>9'G>&CM*:;'K8'BF':6+F:.F;'D9&G@*D6'H1'N='D5+99.J:'C>&:J2h5:jfg@8/;;61/=hc8/?42:2:c7l7g:k2e6i
11.更新資料的設計考量如果清單方塊或下拉式方塊的[資料列來源類型] 屬性設定為[值清單],您可以在表單檢視中開啟表單時編輯值清單,避免每次需要變更清單時,都不需要切換至 [設計] 檢視或 [版面配置] 檢視、開啟屬性表,以及編輯控制項的[資料列來源] 屬性。 若要編輯值清單,清單方塊或下拉式方塊的[允許值清單編輯] 屬性必須設定為 [jvzquC41uwvqq{y0okisq|thv0ipo8j/jq0vxuke1+F8.>D'D:&G?*;8'H1'N;';7+C:.J8';9&;J*G9'?B'A9'G:+B:.FF'G>&CA*::'K9'A5':5+F8.=7'CK.6A8299>9/k736/:c:=2dd68.eo;49f:59o;6
12.81道SSM经典面试题总结只能代理接口:JDK 动态代理要求目标类必须实现一个接口,不能直接代理类。这限制了它的使用范围,对于没有实现接口的类,无法使用 JDK 动态代理。 代理类有限:JDK 动态代理生成的代理类数量有限,当目标类实现多个接口时,会为每个接口生成一个代理类,可能导致生成大量的代理类。 jvzquC41yy}/7:hvq0ipo8ftvkimg8<:83:90qyon
13.高考数学必考知识点汇总5. 对不重合的两条直线 (建议在解题时,讨论后利用斜率和截距) 6. 直线在两坐标轴上的截距相等,直线方程可以理解为,但不要忘记当时,直线在两坐标轴上的截距都是0,亦为截距相等。 7.解决线性规划问题的基本步骤是什么?请你注意解题格式和完整的文字表达。(①设出变量,写出目标函数②写出线性约束条件③画出可行jvzquC41yy}/z~jzkng/exr1zwkykok1iculcxkwfcu0e:;57;=30qyon
14.数据链路层(二)上层要发送数据时,发送方先检查发送窗口是否已满,如果未满,则产生一个帧并将其发送;如果窗口已满,发送方只需将数据返回给上层,暗示上层窗口已满。上层等一会再发送。(实际实现中,发送方可以缓存这些数据,窗口不满时再发送帧)。 3.2收到了一个ACK GBN协议中,对n号帧的确认采用累积确认的方式,标明接收方已经收jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:62;988
15.mysql精典cxm.cm声明整型数据列时,我们可以为它指定个显示宽度M(1~255),如INT(5),指定显示宽度为5个字符,如果没有给它指定显示宽度,MySQL会为它指定一个默认值。显示宽度只用于显示,并不能限制取值范围和占用空间,如:INT(3)会占用4个字节的存储空间,并且允许的最大值也不会是999,而是INT整型所允许的最大值。 jvzq<84dnqm/eqnpcwtjz7sgv1{jf67234;:792kf/7:9?<:;0nuou
16.高斯数据库字段类型与mysql对照高斯数据库语法2. 目标列表达式 3.3.2 WHERE 子句 1. 比较 2. 确定范围 3. 确定集合 4. 字符匹配 5. 空值查询 6. 多重条件 3.2.3 ORDER BY 子句 3.2.4 聚集函数 3.2.5 GROUP BY 和 HAVING 子句 3.4 连接查询 3.4.1 WHERE 子句连接 1. 等值与非等值连接 jvzquC41dnuh0>6evq4dqv4wa3<1;B86617229:6;;
17.投资性房地产评估方法汇总十篇(六)制度建设落后,行业规范缺乏约束性 虽然房地产评估行业随着房地产业的繁荣得到了快速的发展,但仍处于发展的初级阶段,很多房地产评估机构是近几年由原来的政府房地产评估机构脱钩改制而来,它们与政府部门还存在着千丝万缕的关系,这也使得它们能够通过政府关系去垄断市场,而不是通过正常的市场竞争去获得业务;有的机构jvzquC41yy}/z~jujw4dqv3ep1nbq€jp16:2;;3jvor
18.mysql数据库实验报告总结体会mysql数据库基础实验总结约束是一种限制,它通过对表的行或列的数据做出限制,来确保表的数据的完整性、唯一性。 1.约束分类 在MySQL中,通常有这几种约束: 2.主键 主键(PRIMARY KEY)是用于约束表中的一行,作为这一行的唯一标识符,在一张表中通过主键就能准确定位到一行,因此主键十分重要。主键不能有重复且不能为空。 jvzquC41dnuh0>6evq4dqv4wa3<33<<291>64B732
19.修改mysqlwaittimeout的值mysql中的修改语句6. 使用外键约束: 外键是用来在两个表的数据之间建立链接,可以是一列或者多列,一个表可以有一个或者多个外键。 外键对应的是参照完整性,一个表的外键可以为空值,若不为空值,则每一个外键必须等于另一个表中主键的某个值。 作用:保持数据的一致性,完整性。 jvzquC41dnuh0>6evq4dqv4wa3<33<;371728;57:7
20.SQL基础操作详解一、列级完整性约束条件 NOT NULL:限制列取值非空。 DEFAULT:给定列的默认值。 UNIQUE:限制列取值不重复。 CHECK:限制列的取值范围。 PRIMARY KEY:指定本列为主码。 FOREIGN KEY:定义本列为引用其他表的外码。 使用形式为:[FOREIGN KEY(<外码列名>)]REFERENCES <外表>(<外表列名>) jvzquC41dnuh0lxfp0tfv8mj34823;731cxuklqg1fkucrqu17986=<75
21.EF多重性约束腾讯云开发者社区新增检查性约束限制(1)自增列和其他表的列,不支持检查性约束(2)不确定的函数,如CONNECTION_ID(),CURRENT_USER(),NOW()等,不支持检查性约束(3)用户自定义函数,不支持检查性约束(4)存储过程,不支持检查性约束(5)变量,不支持检查性约束(6)子查询,不支持检查性约束 总结检查性约束,还是一个非常不错jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0kwkqtogukxs1GH+F7.F6';G&GB*:9'>E'N;':2+B9.J9'DG&C?*G8'?E'BK/ctzjeuj