YOLOFuse输出结果格式详解：边界框坐标+类别+置信度说明-育师

YOLOFuse输出结果格式详解：边界框坐标+类别+置信度说明

在智能安防、自动驾驶和夜间监控等实际场景中，单一可见光图像在低光照或恶劣天气条件下常常“看不清”。这时候，仅靠RGB摄像头已经难以满足对目标检测鲁棒性的要求。一个更聪明的思路是引入红外（IR）图像——它不依赖环境光，而是捕捉物体自身的热辐射信息。当可见光失效时，红外依然能“看见”。

于是，RGB-IR双模态融合检测逐渐成为突破感知瓶颈的关键技术。而YOLO系列因其速度快、精度高，在实时系统中广受欢迎。但标准YOLO只支持单输入，无法直接处理双流数据。为解决这一矛盾，YOLOFuse应运而生。

这是一个基于Ultralytics YOLO架构扩展的多模态目标检测框架，专为RGB与红外图像融合设计。它不仅实现了双流特征提取与灵活融合策略，更重要的是——它的输出格式完全继承了YOLO生态的标准结构：归一化边界框 + 类别ID + 置信度分数。这种简洁统一的设计，让开发者无需重新适配接口即可快速集成到现有系统中。

那么，这三项输出到底代表什么？它们是如何生成的？又该如何正确使用？我们来一一拆解。

边界框坐标：如何精确定位目标位置？

目标检测的第一要务是“在哪里”，而边界框（Bounding Box）就是答案的载体。YOLOFuse沿用了YOLOv8的经典表示方式：一个四元组[x_center, y_center, width, height]，全部以归一化形式输出。

这意味着：
- 所有值都在[0, 1]范围内；
- 坐标基于原始图像宽高进行缩放；
- 不论输入图像是640×480还是1920×1080，模型输出始终保持一致格式。

比如，[0.5, 0.6, 0.2, 0.3]表示：
- 目标中心位于图像横向一半、纵向60%处；
- 框的宽度占整图宽度的20%，高度占30%。

这样的设计有什么好处？
首先，与分辨率解耦。训练时可以用一种尺寸，部署时换另一种，只要后处理阶段乘上当前图像的实际宽高，就能还原成像素坐标。其次，兼容性强。Ultralytics官方工具如scale_boxes可自动完成坐标映射，极大简化开发流程。

当然，如果你需要绘制矩形框或裁剪目标区域，通常会将其转换为左上角和右下角的像素坐标(x1, y1, x2, y2)。下面这段代码就是实现这个转换的核心逻辑：

import torch def decode_bbox(pred_box: torch.Tensor, img_shape: tuple): """ 将归一化边界框转换为图像像素坐标 Args: pred_box: 归一化坐标 [x_c, y_c, w, h] img_shape: 原始图像形状 (H, W) Returns: pixel_box: 像素坐标 [x1, y1, x2, y2] """ H, W = img_shape x_c, y_c, w, h = pred_box.unbind(-1) x1 = (x_c - w / 2) * W y1 = (y_c - h / 2) * H x2 = (x_c + w / 2) * W y2 = (y_c + h / 2) * H return torch.stack([x1, y1, x2, y2], dim=-1) # 示例调用 pred_boxes = torch.tensor([[0.5, 0.6, 0.2, 0.3]]) # 归一化框 pixel_boxes = decode_bbox(pred_boxes, (480, 640)) # 转换为640x480图像上的像素坐标 print(pixel_boxes) # 输出: [[192., 216., 352., 384.]]

值得注意的是，YOLOFuse虽然是双模态输入，但最终输出的边界框是融合决策后的结果，并非分别来自RGB或IR分支。也就是说，你不会得到两个框，而是一个经过融合优化的最佳定位。这也意味着，无论前端采用早期、中期还是晚期融合策略，用户看到的输出接口始终一致——这对系统集成来说是一大优势。

类别标签：从数字ID到语义理解

有了位置，下一步就是回答“这是什么”。YOLOFuse通过分类头输出一个整数ID，代表检测到的目标类别。例如，在常用的LLVIP数据集中，0对应“人”，1对应“自行车”。

为什么不用字符串直接输出“person”？原因很简单：效率。

整数比字符串更节省内存和带宽，尤其是在批量推理或多设备通信场景下。更重要的是，类别ID与具体语言无关，便于国际化部署。真正的语义解析留给外部映射表完成，灵活性更高。

你可以这样定义你的类别名称列表：

class_names = ['person', 'bicycle']

然后通过简单的索引查找获取可读标签：

def get_class_name(cls_id: int, class_list: list) -> str: if 0 <= cls_id < len(class_list): return class_list[cls_id] else: return "unknown"

不过这里有个关键注意事项：必须确保部署环境中的类别映射与训练时完全一致。否则会出现“张冠李戴”的问题——明明是车，却被识别为人。

此外，如果使用迁移学习微调模型，也要检查新旧类别的数量是否匹配。假设原模型有80个COCO类别，而你现在只训了2类，就必须修改配置文件中的nc参数（number of classes），否则可能引发越界错误。

还有一点值得强调：YOLOFuse支持标注复用机制。即只需对RGB图像进行标注，系统会自动将同一标注应用于配对的红外图像。这大幅降低了双模态数据的标注成本——毕竟人工标注本身就是AI项目中最耗时的一环之一。

置信度分数：判断“我有多确定”

最后一个要素是置信度（Confidence Score），它是衡量检测可靠性的重要指标，范围一般在[0, 1]之间。

这个数值不是凭空来的，而是由两部分联合决定的：
1.目标存在概率（Objectness）：模型认为这个框里“有没有东西”；
2.最大分类概率：在所有类别中，最高得分的那个。

最终置信度 = Objectness × max(Probabilities)

也就是说，即使模型觉得这里有目标（objectness高），但如果分类拿不定主意（各类别概率都很低），整体置信度也会被拉低。反过来也一样。这种机制有效过滤掉那些“模棱两可”的预测。

在推理过程中，我们可以通过设置conf_thres（默认0.25）来控制灵敏度。调高阈值会减少误检但可能漏掉小目标；调低则相反。例如：

from ultralytics import YOLO model = YOLO('/root/YOLOFuse/runs/fuse/weights/best.pt') results = model.predict( source='/root/YOLOFuse/data/images/test.jpg', conf_thres=0.3, iou_thres=0.5, device='cuda' )

上述代码设置了更高的置信度门槛（0.3），适用于对误报容忍度低的场景，比如安防报警系统。

同时配合iou_thres（IoU阈值，默认0.45）进行NMS（非极大值抑制），去除重叠严重的冗余框。这两个参数共同决定了最终输出的结果数量与质量。

实践中，很多开发者还会根据置信度对检测结果排序，优先处理高置信目标。例如在无人机巡检中，先关注最确信的异常点，再逐级排查低分项，提升响应效率。

实际应用中的系统架构与工作流程

YOLOFuse的整体架构采用典型的双流设计：

+------------------+ +---------------------+ | RGB 图像输入 | ----> | | +------------------+ | 双流主干网络 | | (如YOLO backbone) | +------------------+ | | | IR 图像输入 | ----> | (Dual Stream Path) | +------------------+ +----------+----------+ | +-------v--------+ | 融合模块 | | (Early/Mid/Late)| +-------+---------+ | +-------v--------+ | 检测头 | | (Head for bbox) | +-------+---------+ | +-------v--------+ | 输出：[bbox, cls, conf] | +------------------+

两条独立通路分别提取RGB和IR特征，随后在不同层级进行融合：
-早期融合：在浅层拼接输入，保留更多原始细节，适合纹理丰富的场景，但计算开销略大；
-中期融合：在中间层聚合特征，兼顾精度与效率，实测mAP@50可达94.7%，且显存占用仅2.61MB，推荐作为默认选择；
-决策级融合：各自独立检测后再合并结果，鲁棒性强，但在资源受限设备上延迟较高。

整个工作流程也非常清晰：
1. 准备成对图像：RGB图放在images/，对应IR图放入imagesIR/，文件名必须相同；
2. 运行推理脚本：
bash cd /root/YOLOFuse python infer_dual.py
3. 查看结果：检测图自动保存至/runs/predict/exp，每帧都叠加了框、标签和置信度文本；
4. 后续处理：可导出JSON用于报警触发，或接入SORT、ByteTrack等算法实现多目标追踪。

尤其在夜间、烟雾、雾霾等复杂环境下，单纯依靠可见光极易产生虚警（如把影子当成人）。而红外提供了额外的热特征，双模态一致性验证显著降低了误检率。实验表明，相比传统YOLOv8，YOLOFuse在低光场景下的mAP提升明显，真正做到了“看得清、辨得准”。