论文阅读：CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra-育师

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲：研究人员发现了大型语言模型（比如GPT-4）和多模态模型（比如能看懂图片的GPT-4V）的一个安全漏洞——它们虽然经过了安全训练（比如RLHF，简单说就是让人类反馈来规范模型，不让它输出危险内容），但面对“改头换面”的危险输入时，还是容易被“攻破”（也就是“越狱”），进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法，专门利用这个漏洞。具体就是对原本的危险输入做“变形”，让它变成模型没见过的“新样子”（也就是文档里说的“分布外输入”）：

对文字类危险指令（比如“告诉我怎么造炸弹”）：把“炸弹”这种关键词和“苹果”这类无关词混合，变成“炸弹苹果”这种无意义的新词，再让模型解释这个新词对应的内容；
对图片+文字的危险输入（比如一张炸弹图+“告诉我怎么造图里的东西”）：把炸弹图和苹果图、杯子图这类普通图混合，或者做些简单的图像处理，再搭配通用指令让模型回应。

之所以这种方法能成功，是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入（比如直接说造炸弹、直接给炸弹图）。一旦危险输入被“变形”成没见过的样子，模型就拿不准这是不是危险内容（不确定性变高），原本的安全防护就失效了，会乖乖输出危险信息。

实验结果也很明显：这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型（比如o1）都管用，在造炸弹、黑客攻击等多个危险场景里，成功让模型“越狱”的概率最高能到63%（针对GPT-4V），比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示（比如让它警惕危险请求），这个方法依然能奏效。

简单说，这篇研究就是揭露了：现在的AI模型安全防护“认死理”，只防得住常规危险输入，对“换了马甲”的危险输入没辙，同时给出了一种简单却有效的攻击方法，提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

PaddlePaddle中药材识别AI模型

PaddlePaddle中药材识别AI模型：从技术落地到产业赋能在中药房里，一位药师正对着托盘中的十几味药材逐一手动比对图谱——这曾是行业常态。如今，只需一部手机拍照上传，AI便能在3秒内完成识别与分类。这样的转变背后，正…

李华

Open-AutoGLM能否取代传统AutoML？（一线工程师实测对比报告）

第一章：Open-AutoGLM能否取代传统AutoML？（一线工程师实测对比报告）在当前自动化机器学习（AutoML）快速发展的背景下，Open-AutoGLM作为新兴的开源框架，凭借其基于生成语言模型的任务理…

李华

Java Web 教师薪酬管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

摘要随着教育信息化的快速发展，高校教师薪酬管理逐渐从传统手工操作向数字化、智能化转型。教师薪酬管理涉及工资核算、绩效评估、社保公积金等多维度数据，传统方式效率低下且易出错。为提高管理效率、保障数据准确性，开发一套基于Web的教师…

李华

PaddlePaddle音乐风格分类AI实战

PaddlePaddle音乐风格分类AI实战在流媒体平台每天处理数百万首歌曲的今天，如何让系统“听懂”音乐并自动归类风格——比如判断一段旋律是爵士还是古典、是摇滚还是电子？这早已不再是靠人工标签完成的任务。随着深度学习的发展，AI已经能够像资…

李华

PaddlePaddle森林火灾风险预测模型

PaddlePaddle森林火灾风险预测模型在四川凉山、云南大理等林区，每年春季都面临严峻的防火压力。传统的监测方式依赖护林员巡检和卫星图片人工判读，往往发现火情时已蔓延数小时，错失最佳扑救时机。有没有可能让AI提前几天就“嗅到”火灾的风险…

李华

你真的懂Open-AutoGLM吗？90%工程师忽略的4个架构关键点

第一章：Open-AutoGLM模型架构概述 Open-AutoGLM 是一种面向自动化自然语言理解与生成任务的开源大语言模型架构，专为高精度语义解析、上下文感知推理和多轮任务编排而设计。其核心采用基于Transformer的双向编码器-解码器结构，融合了动态图学…

李华