news 2025/12/23 22:37:44

NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准

随着大语言模型(LLM)的广泛应用,它们在医疗、金融、教育等关键行业扮演着愈发重要的角色。然而,一个被忽视的现实是:大模型的知识并不会自动更新,更不总是准确。当模型输出过时信息、错误事实甚至自信满满的“胡说八道”时,如何快速、精准、低成本地纠正它?知识编辑(Model Editing)因此成为近年来的研究热点。

但现有知识编辑评估基准遇到两个痛点:

  • 编辑测试范围太窄:大多数基准数据只覆盖极少数知识领域,无法反映真实世界中海量、多样的知识结构。
  • 编辑影响评估不全面:修改一条知识可能会在模型中“牵一发而动全身”。现有基准往往只测“是否记住修改”,却很少考察关联知识的连锁反应。

UniEdit 首次在开放域构建统一而全面的知识编辑测试体系

华东师范大学联合阿里巴巴合肥工业大学提出 UniEdit——第一个覆盖25个知识领域、包含31.1 万条样本的大规模开放域知识编辑基准。目前已被人工智能顶级会议NeurIPS接收。
下图展示了UniEdit数据的一个构成样例。

它的独特之处在于:

基于 Wikidata 构建最大规模开放域编辑数据集

UniEdit筛选了 Wikidata 中约2990 万个实体2400 个关系,并覆盖五大知识板块:自然科学、人文科学、社会科学、应用科学,及交叉学科,比以往任何编辑基准都更全面。

提出 NMCS(邻域多跳链采样)算法:首次统一所有编辑评价维度

知识编辑不仅要测试“记住没?”,还要测:

  • Generality(泛化性):编辑后的模型是否能在多跳推理、别名、关系反转等变化场景正确应用新知识?
  • Locality(局部性):模型是否能保持其他不相关知识不受影响?

UniEdit 的NMCS 算法能自动采样生成多跳、跨关系、跨实体的复杂知识链条,让测试覆盖:多跳推理关系反转实体别名1-N 遗忘,以及各种组合情况。UniEdit 是唯一能同时覆盖所有组合的基准。

全自然语言生成,易于真实应用评测

通过 DeepSeek-V3 自动生成自然语言描述,使每条编辑样例、泛化样例、局部性样例均具有:清晰语义、多样的语言表达、真实世界的复杂度。这些都使得 UniEdit 更接近真实大模型使用场景。

这篇工作评测了 8 大主流编辑方法,揭示了重要发现

大多数方法“记住编辑内容”没问题,但“泛化”普遍困难

尽管当前主流的知识编辑方法(如 ROME、SERAC、GRACE 等)在 可靠性(Reliability) 维度上几乎都能做到 90% 以上,说明它们能够成功让模型“记住被修改的知识”,但在最关键的 泛化性 上表现普遍不足。

表格数据显示:

  1. 即便是表现最好的方法(如 IKE、SERAC),泛化性指标均值也难以超过 80%;
  2. 许多 Locate-and-Edit(L&E)方法泛化性分数甚至跌至 30%–50% 区间;
  3. 这说明模型虽然“记住了正确答案”,但在真实场景下面对 语义变化、多跳推理、别名、关系变化 时,仍然容易回归错误或缺乏理解能力。

这揭示出一个关键挑战:如何让模型不仅记住编辑内容,更能理解并正确应用它?

人文与自然科学领域表现更好,社会科学和应用科学更难编辑

跨领域的实验结果显示:

  1. 自然科学(如化学、生物、数学) 和 人文学科(如历史、文学) 的编辑泛化效果普遍较好;
  2. 社会科学(政治学、经济学、心理学) 与 应用科学(工程、医学等) 表现显著偏低。

这主要源于当前大模型在预训练语料中接触的数据分布不同:自然科学与人文学科的知识结构更稳定、概念更规范,大模型预训练时也学习得更多;而社会科学、医学、工程中存在大量细粒度知识、背景依赖性强、概念模糊性高,使得模型更容易混淆或误泛化。

该结果说明:低资源领域与高知识噪声领域的编辑仍需重点突破。

泛化性相较于局部性在高复杂度场景中更容易出错

图中的雷达图清晰展示了:

  1. 当测试涉及 多跳(MH)+ 别名(SA/OA)+ 关系反转(RR) 等复杂组合时,绝大多数方法在 泛化性 上出现明显下降;
  2. 然而在 局部性 测试中,模型不出错的能力则相对稳定。

原因在于:泛化性需要模型真正理解知识之间的逻辑关系,因此对知识结构的掌握度要求极高;而局部性只是要求“不被错误干扰”,复杂句式反而降低触发错误关联的几率,使其评分更容易保持。

这表明未来的研究需要更关注:如何在复杂语境下真正让模型“懂得”编辑后的知识,而非仅做匹配式记忆。

依赖编辑训练的方法(如 SERAC)对训练域高度敏感

进一步的实验显示:编辑训练方法(如 SERAC)具有明显的 领域敏感性。当模型仅在某一领域(如化学)进行编辑训练时,它在 同领域测试 上的效果最好;但在跨领域(如文学、心理学)测试时,泛化性能显著下降。

这说明:编辑训练方法在“见过的领域”表现稳健,但在“未见过的领域”难以迁移;如果希望训练式编辑方法具备强泛化能力,必须提供 跨领域、大规模、覆盖多知识结构的训练数据集。

而 UniEdit 的推出,正是为了解决这一痛点。

UniEdit 不止用于模型编辑:更能推动多个前沿 AI 研究方向

虽然 UniEdit 是为 大模型知识编辑(Model Editing) 设计的,但它的结构化、多领域、大规模、可控复杂度的特点,使它能在更广泛的研究方向中发挥作用。以下是几个典型的潜在应用方向:

事实一致性(Fact Consistency)与幻觉检测(Hallucination Evaluation)

UniEdit 的知识链条结构(多跳、别名、反转关系等)适用于测:

  • 模型是否输出与事实一致的答案
  • 在复杂推理条件下是否会产生幻觉
  • 模型是否因相似实体或相似关系而误判

多跳推理(Multi-hop Reasoning)与知识链条理解

UniEdit 提供大量多跳自然语言知识链,可用于:

  • 评估模型的跨实体 / 跨关系推理能力
  • 研究 LLM 在复杂知识结构中的路径选择
  • 训练或微调多跳问答(Multi-hop QA)模型

知识图谱问答(KGQA)与 KG-to-Text 研究

UniEdit 源于 Wikidata,并搭建了一个完整的从知识图数据到自然语言数据的采样、生成管道。它能支持:

KGQA(基于知识图谱的问答)训练与评估、知识图谱到自然语言生成(KG-to-Text)任务、自然语言与结构化知识对齐(alignment)等研究。

展望

UniEdit 提供了第一套覆盖开放域、统一评价标准、结构复杂的大规模知识编辑基准。在UniEdit的基础上,未来可关注:

  • 更强大的编辑泛化能力
  • 多模态(图像、视频)的知识编辑
  • 多语言知识编辑

UniEdit 的推出,为未来 LLM 的知识更新、安全应用与可靠性研究奠定了基础。希望这一工作能够成为推动高质量模型编辑研究的重要基石,同时对事实一致性、多跳推理和KGQA等多个领域的发展起到推动作用。

网址

Paper: https://arxiv.org/abs/2505.12345
GitHub: https://github.com/qizhou000/UniEdit
Dataset: https://huggingface.co/datasets/qizhou/UniEdit

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/22 13:45:13

26、Unix系统管理与实用技巧

Unix系统管理与实用技巧 系统监控与信息查看 作为系统管理员,需要时刻掌握系统中各种活动的情况。 watch 命令是一个非常实用的工具,它可以帮助管理员监控用户、系统或文件等方面的情况。 - 监控特定命令输出 :使用 watch last 可以监控 last 命令的输出,当有用…

作者头像 李华
网站建设 2025/12/23 1:14:28

[HZNUCTF 2023 preliminary]ppppop

打开题目便是空白页面,查看源代码,也是空白的,没有任何内容,进行目录扫描发现有目录,但是内容都是为0进行抓包,发现cookie中user的值有点像base64编码尝试进行解码解码内容是O:4:"User":1:{s:7:&…

作者头像 李华
网站建设 2025/12/23 1:14:26

2025年国内主流的德国SAP系统官方授权实施代理商有哪些?

在当今数字化浪潮中,实现业务数据的高效整合与核心流程的精细化管控,是企业突破发展瓶颈、构筑竞争优势的关键所在。SAP推出的集成化管理软件,以其卓越的灵活性与高性价比,成为众多企业数字化转型进程中的重要支撑。而要让这类系统…

作者头像 李华
网站建设 2025/12/23 18:39:53

三相异步电动机交流调速系统:原理、应用与优化控制策略

三相异步电动机交流调速控制最近在车间折腾三相异步电动机的调速控制,发现这玩意儿虽然长得像块铁疙瘩,玩起来倒是挺有意思。今天就跟大伙唠唠怎么用代码让这铁疙瘩听话地变速跑起来,咱们不整那些虚头巴脑的理论,直接上手实操。先…

作者头像 李华
网站建设 2025/12/23 20:08:07

3、数据科学命令行入门指南

数据科学命令行入门指南 一、准备工作概述 在开始进行数据科学的命令行操作之前,需要完成两项重要的准备工作:一是拥有包含所有必要命令行工具的合适环境;二是理解使用命令行时涉及的基本概念。 二、搭建数据科学工具箱 在数据科学工作中会用到许多不同的命令行工具。虽…

作者头像 李华