【论文精读】Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)-育师

标题：Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
NeurIPS 2025 Best Paper

一、研究背景：为啥要做这个研究？

咱们平时用 AI 写东西、 brainstorm 时，有没有觉得不同 AI 给的答案越来越像？比如让不同模型写 “时间的隐喻”，大多离不开 “河流”“织工”—— 这就是论文要解决的核心问题：大语言模型（LMs）在开放式任务（没有唯一答案的任务，比如写诗歌、想点子）中，为啥总爱 “抄作业”？长期看，大家天天看同质化的 AI 输出，可能会限制人类的思维多样性，但之前没人系统研究过这个问题，也没有靠谱的数据集和评估方法。

研究要回答三个关键问题：

人们平时真的会问 AI 哪些开放式问题？
不同 AI 的回答是不是真的高度相似（也就是 “人工蜂群思维”）？
AI 自己评分的结果，和我们人类觉得 “好” 的标准一致吗？

二、核心贡献：带来了啥新东西？

INFINITY-CHAT 数据集：从真实用户对话中筛选出 2.6 万个开放式查询（比如 “写一个电动车的笑话”“给马克思理论论文想新选题”），覆盖 6 大类 17 个子类，还配了 3.125 万条人类标注 —— 每个回答都有 25 个人打分或选偏好，保证数据靠谱。
首个开放式查询分类体系：比如 “创意内容生成”（占 58%，最多）、“头脑风暴”（15.2%）、“假设场景”（22.2%）等，还发现了 314 个新类别（比如 “文化分析”“伦理问题”）。
首次证实 “人工蜂群思维效应”：量化了 AI 的两种 “同质化毛病”，不是偶尔相似，是普遍现象。
发现 AI 评分和人类偏好脱节：AI 觉得 “好” 的答案，我们人类可能有不同看法，尤其是多个答案质量差不多时。

三、关键发现：最有意思的结论

（一）人工蜂群思维：AI 们集体 “偷懒”

同一模型自己重复（模型内重复）：就算让 AI 用 “高随机性模式”（top-p=0.9，temperature=1.0）生成答案，79% 的回答两两相似度超过 0.8（相当于说 “差不多是一个意思”）；就算换了增强多样性的模式（min-p 解码），还有 61.2% 的回答相似度超 0.8。比如让 GPT-4o 反复写 “花生的双关语”，几次输出都离不开 “cashew（腰果 / 抓住你）” 的梗。
不同模型互相 “抄作业”（模型间同质性）：70 多个开源 / 闭源模型（比如 GPT-4o、Llama-3、文心一言）的回答，语义相似度高达 71%-82%。有的甚至逐字重复，比如多个模型都输出 “Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself”（赋能你的旅程：解锁成功、积累财富、改变自我）；抽象概念也趋同，写 “时间的隐喻”，全集中在 “时间是河流”（主流）和 “时间是织工”（少数）两大类，没有其他新鲜比喻。

（二）AI 评分不靠谱：和人类想法差得远

答案质量差不多时：比如两个回答都是 “合格的托福 vs 雅思对比”，AI 打分会差很多，但人类觉得 “都还行”，AI 没法区分 “同样好的不同答案”。
人类有分歧时：比如有人觉得 “夕阳的诗 A 好”，有人觉得 “诗 B 好”，AI 评分会固执地选一个，完全忽略人类偏好的多样性。

（三）数据集里的小发现

大家用 AI 最多的是 “创意内容生成”（58%），比如写诗歌、编故事；其次是 “替代写作体裁”（38.5%），比如写邮件、剧本。
34.66% 的查询能有 20 种以上合理答案，比如 “人生的意义是什么”，但 AI 只给少数几种回答。

四、实验设计：怎么证明这些结论的？

模型范围：70 多个 AI 模型，重点分析 25 个（比如 GPT-4o、Llama-3.1、文心一言 3.0 等）。
生成模式：两种解码方式对比 —— 普通高随机性模式和增强多样性的 min-p 模式。
评估方法：用 AI 的语义嵌入算相似度（判断是不是一个意思），用 “香农熵” 算人类偏好分歧（熵越高，人类看法越不一样），用相关性分析 AI 评分和人类评分的一致性。
人类标注：2296 个英语母语标注者， approval rate 99%+，保证打分靠谱。