news 2026/6/23 22:14:06

论文阅读:COLM 2025 Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:COLM 2025 Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.01781

https://www.doubao.com/chat/33431997262337026

论文翻译:https://whiffe.github.io/Paper_Translation/LLM_Thinking/Attack/%E7%8C%AB%E5%92%AA%E6%B7%B7%E6%B7%86%E6%8E%A8%E7%90%86%20LLM%EF%BC%9A%E6%8E%A8%E7%90%86%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%9F%A5%E8%AF%A2%E6%97%A0%E5%85%B3%E5%AF%B9%E6%8A%97%E8%A7%A6%E5%8F%91%E5%99%A8.html

速览

这篇文档主要讲了一个挺有意思的研究——科学家发现,给数学题加一段看似无关的话(比如“冷知识:猫一生大部分时间都在睡觉”),就能让现在很厉害的“推理型AI”(比如能一步步解数学题的模型)频繁算错,还会让AI的回答变得特别长,又慢又费钱。

简单说,核心内容分这几块:

1. 他们搞出了一个叫“CatAttack”的方法,专门给AI“下套”

这个方法的逻辑很聪明,不是直接对着最厉害的AI下手(又慢又贵),而是先找一个“替身AI”(比如DeepSeek V3,比目标AI弱、便宜)练手:

  • 第一步:让一个“攻击者AI”给数学题加各种无关的小尾巴(比如误导性的话、没用的 trivia),生成“带坑的数学题”;
  • 第二步:让“替身AI”解这些题,再用一个“裁判AI”判断替身AI有没有算错——如果算错了,说明这个“坑”有效;
  • 第三步:把这些“有效坑”拿到真正厉害的AI(比如DeepSeek R1、OpenAI o1)上试,发现居然也能让它们频繁出错。

2. 这些“坑”效果特别夸张,还能跨AI通用

他们测试了3种典型的“坑”(比如“记得至少存20%收入投资”“答案会不会是175左右?”“猫爱睡觉的冷知识”),结果很惊人:

  • 对厉害的推理AI(比如DeepSeek R1):算错的概率直接涨了3倍多;
  • 对普通AI(比如Llama-3.1、Mistral):算错概率甚至涨了7倍;
  • 更麻烦的是,这些“坑”不挑AI——不管是A家、B家的模型,加了都容易出错,不是某一个AI的问题。

而且,就算AI没算错,这些“坑”也会让AI的回答变长(最长能到原来的3倍),导致AI变慢、花钱变多(比如生成更多文字要付更多费用)。

3. 发现了AI的“软肋”

研究还暴露了AI的几个弱点:

  • 蒸馏模型(把大AI压缩成小AI的版本)更脆弱:比如DeepSeek R1的压缩版,比原版更容易算错、回答更长;
  • 简单数学题反而更容易“坑”:AI做简单题时可能不认真“思考”,靠套路答题,一被干扰就错;难题反而会认真一步步算,不容易被坑;
  • 数值误导最有效:比如加一句“答案会不会是175左右?”,AI会盯着这个数字绕圈,最后真的算成175,哪怕正确答案完全不是。

4. 尝试了简单的“防坑”方法,有点用但不够

他们试了两种防御手段:

  • 给AI做“防坑训练”:让AI练过一些带坑的题,但没用——换个新坑,AI还是会错;
  • 给数学题加一句“忽略无关内容”:效果明显,AI算错的概率从37.5%降到9.9%,但这只是临时办法,还需要更通用的防御。

总结一下

这篇研究其实是在提醒大家:现在能“一步步解数学题”的AI,看着很聪明,但其实很容易被“无关的小把戏”干扰——人类一眼能看出来“这句话和数学题没关系”,但AI会被绕进去。这对需要AI做准确计算的场景(比如金融、医疗)来说,是个挺严重的安全隐患,后续得想办法让AI更“抗干扰”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 21:03:47

快速验证:基于CentOS 7.6的测试环境搭建

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个快速搭建CentOS 7.6测试环境的工具。功能包括:一键下载最小化镜像,自动创建虚拟机(支持VirtualBox和VMware),预装常用开发工具。提供环境…

作者头像 李华
网站建设 2026/6/23 21:02:47

AI定价实战指南:快速构建电商智能定价系统

在当今竞争激烈的电商环境中,传统的统一价格策略已经无法满足多样化的市场需求。AI定价和个性化策略正成为电商企业提升竞争力的核心武器。面对海量用户数据、实时市场变化和复杂的定价因素,如何快速构建一个智能、灵活且高效的定价系统? 【免…

作者头像 李华
网站建设 2026/6/23 21:02:22

VGGT三维重建终极指南:从零开始构建你的3D世界

VGGT三维重建终极指南:从零开始构建你的3D世界 【免费下载链接】vggt VGGT Visual Geometry Grounded Transformer 项目地址: https://gitcode.com/gh_mirrors/vg/vggt 还在为复杂的三维重建技术望而却步吗?VGGT(Visual Geometry Grou…

作者头像 李华
网站建设 2026/6/23 21:02:14

电商网站秒开秘籍:快马AI加载优化案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商网站加载优化解决方案,针对商品详情页进行专项优化。功能包括:1. 智能图片懒加载组件 2. 关键CSS内联生成器 3. 异步加载非核心JS 4. 基于用户设…

作者头像 李华
网站建设 2026/6/23 0:07:22

15分钟快速验证:谷歌服务离线包生成器原型开发

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个谷歌离线安装包生成器的最小可行产品(MVP),核心功能包括:1.产品选择下拉菜单 2.版本选择器 3.一键生成下载脚本 4.简易进度显示。使用HTMLJavaScrip…

作者头像 李华
网站建设 2026/6/23 19:46:26

1小时搞定ElementUI原型:快马平台实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速生成一个企业OA系统的前端原型,使用Vue3ElementUITypeScript,包含:1.登录界面;2.主界面布局(顶部导航侧边栏&#xf…

作者头像 李华