news 2026/7/5 6:33:28

【论文精读】Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文精读】Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

标题:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
NeurIPS 2025 Best Paper

一、研究背景:为啥要做这个研究?

咱们平时用 AI 写东西、 brainstorm 时,有没有觉得不同 AI 给的答案越来越像?比如让不同模型写 “时间的隐喻”,大多离不开 “河流”“织工”—— 这就是论文要解决的核心问题:大语言模型(LMs)在开放式任务(没有唯一答案的任务,比如写诗歌、想点子)中,为啥总爱 “抄作业”?长期看,大家天天看同质化的 AI 输出,可能会限制人类的思维多样性,但之前没人系统研究过这个问题,也没有靠谱的数据集和评估方法。

研究要回答三个关键问题

  • 人们平时真的会问 AI 哪些开放式问题?
  • 不同 AI 的回答是不是真的高度相似(也就是 “人工蜂群思维”)?
  • AI 自己评分的结果,和我们人类觉得 “好” 的标准一致吗?

二、核心贡献:带来了啥新东西?

  • INFINITY-CHAT 数据集:从真实用户对话中筛选出 2.6 万个开放式查询(比如 “写一个电动车的笑话”“给马克思理论论文想新选题”),覆盖 6 大类 17 个子类,还配了 3.125 万条人类标注 —— 每个回答都有 25 个人打分或选偏好,保证数据靠谱。
  • 首个开放式查询分类体系:比如 “创意内容生成”(占 58%,最多)、“头脑风暴”(15.2%)、“假设场景”(22.2%)等,还发现了 314 个新类别(比如 “文化分析”“伦理问题”)。
  • 首次证实 “人工蜂群思维效应”:量化了 AI 的两种 “同质化毛病”,不是偶尔相似,是普遍现象。
  • 发现 AI 评分和人类偏好脱节:AI 觉得 “好” 的答案,我们人类可能有不同看法,尤其是多个答案质量差不多时。

三、关键发现:最有意思的结论

(一)人工蜂群思维:AI 们集体 “偷懒”

  • 同一模型自己重复(模型内重复):就算让 AI 用 “高随机性模式”(top-p=0.9,temperature=1.0)生成答案,79% 的回答两两相似度超过 0.8(相当于说 “差不多是一个意思”);就算换了增强多样性的模式(min-p 解码),还有 61.2% 的回答相似度超 0.8。比如让 GPT-4o 反复写 “花生的双关语”,几次输出都离不开 “cashew(腰果 / 抓住你)” 的梗。
  • 不同模型互相 “抄作业”(模型间同质性):70 多个开源 / 闭源模型(比如 GPT-4o、Llama-3、文心一言)的回答,语义相似度高达 71%-82%。有的甚至逐字重复,比如多个模型都输出 “Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself”(赋能你的旅程:解锁成功、积累财富、改变自我);抽象概念也趋同,写 “时间的隐喻”,全集中在 “时间是河流”(主流)和 “时间是织工”(少数)两大类,没有其他新鲜比喻。

(二)AI 评分不靠谱:和人类想法差得远

  • 答案质量差不多时:比如两个回答都是 “合格的托福 vs 雅思对比”,AI 打分会差很多,但人类觉得 “都还行”,AI 没法区分 “同样好的不同答案”。
  • 人类有分歧时:比如有人觉得 “夕阳的诗 A 好”,有人觉得 “诗 B 好”,AI 评分会固执地选一个,完全忽略人类偏好的多样性。

(三)数据集里的小发现

  • 大家用 AI 最多的是 “创意内容生成”(58%),比如写诗歌、编故事;其次是 “替代写作体裁”(38.5%),比如写邮件、剧本。
  • 34.66% 的查询能有 20 种以上合理答案,比如 “人生的意义是什么”,但 AI 只给少数几种回答。

四、实验设计:怎么证明这些结论的?

  • 模型范围:70 多个 AI 模型,重点分析 25 个(比如 GPT-4o、Llama-3.1、文心一言 3.0 等)。
  • 生成模式:两种解码方式对比 —— 普通高随机性模式和增强多样性的 min-p 模式。
  • 评估方法:用 AI 的语义嵌入算相似度(判断是不是一个意思),用 “香农熵” 算人类偏好分歧(熵越高,人类看法越不一样),用相关性分析 AI 评分和人类评分的一致性。
  • 人类标注:2296 个英语母语标注者, approval rate 99%+,保证打分靠谱。

五、研究意义:这事儿重要在哪?

  • 学术上:第一次系统证明了 AI 开放式生成的同质化问题,给后续研究提供了数据集和评估方法。
  • 实际应用上:提醒我们 —— 以后用 AI 辅助创意、学习时,别完全依赖它,不然可能越用思维越单一;也给 AI 开发者提了醒,得让 AI 更 “有个性”,而不是集体 “抄作业”,这样才能真正帮人类发挥创造力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 16:24:39

如何为色盲人士创建可访问的图表

原文:towardsdatascience.com/how-to-create-accessible-graphs-for-colorblind-people-295e517c9b15 https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5ee134235b43177c165597573f5501ff.png 作者使用 Midjourney 创建的图像。…

作者头像 李华
网站建设 2026/7/5 5:29:46

解决: macOS 长按一个键不连续输出

在 macOS 里,长按一个键不连续输出,而是弹出“重音字符选择框”(比如长按 a 出现 ā ǎ ),这是系统的默认行为。如果你想恢复成 长按=连续输入(aaaaaa),可以这样设置&am…

作者头像 李华
网站建设 2026/7/1 15:13:13

USB3.0引脚定义与连接器选型配合要点通俗解释

USB3.0引脚定义与连接器选型:硬件工程师必须掌握的实战指南你有没有遇到过这样的情况?一个看似完美的USB3.0电路板设计,烧录固件后却始终无法跑通高速模式——设备枚举正常,但传输速率被“降级”到USB2.0的480 Mbps。反复检查代码…

作者头像 李华
网站建设 2026/7/3 8:22:13

图解说明ESP32连接阿里云MQTT构建家庭安防系统

从零搭建智能安防系统:ESP32如何安全连接阿里云MQTT实现远程监控 你有没有过这样的经历?出门后突然怀疑门没锁好,或者深夜听到异响却无法确认是否有人闯入。传统的安防设备只能本地报警,根本解决不了“远程感知”这个核心痛点。 …

作者头像 李华
网站建设 2026/7/3 16:25:07

HID设备调试实战:常见枚举失败问题排查指南

HID设备调试实战:从枚举失败到稳定通信的深度排错指南 你有没有遇到过这样的场景? 新设计的HID触摸板插上电脑后毫无反应,设备管理器里显示“未知USB设备”;或者在某台笔记本上能用,在另一台却直接被系统忽略。更糟的…

作者头像 李华
网站建设 2026/7/3 5:30:37

Testing Essay

测试 一、本作业的目标 验证后端核心功能在前端是否正确实现,确保前后端数据交互正常,保障用户操作流程顺畅,为阿尔法冲刺项目质量提供支撑。 二,测试工作安排 为高效完成后端功能前端实现验证,本次测试按“准备-执…

作者头像 李华