news 2026/1/18 8:56:12

使用星图AI算力平台训练PETRV2-BEV模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用星图AI算力平台训练PETRV2-BEV模型

使用星图AI算力平台训练PETRV2-BEV模型

    • 一、背景介绍
      • 1.1 什么是BEV模型?
      • 1.2 为什么选择PETRV2?
      • 1.3 云端训练的必要性
    • 二、操作步骤
      • 2.1 创建算力实例
        • 步骤解析:
        • 小贴士:
      • 2.2 连接到容器环境
      • 2.3 准备训练环境
        • 为什么需要conda环境?
      • 2.4 下载模型和数据
        • 2.4.1 下载预训练权重
        • 2.4.2 下载nuscenes数据集
      • 2.5 训练流程详解
        • 2.5.1 数据预处理
        • 2.5.2 精度测试(验证模型是否正常)
        • 2.5.3 开始训练
        • 2.5.4 可视化训练过程
        • 2.5.5 模型导出与部署
        • 2.5.6 运行Demo验证
      • 2.6 进阶:训练xtreme1数据集
        • 2.6.1、准备数据集
        • 2.6.2、测试精度

一、背景介绍

1.1 什么是BEV模型?

想象一下,当自动驾驶汽车行驶在路上时,它需要通过摄像头、雷达等传感器感知周围环境。这些传感器数据通常是2D图像,而BEV(Bird’s Eye View,鸟瞰图)模型的神奇之处在于,它能将这些不同视角的数据“翻译”成一个从上往下看的统一视图。

就像你把不同角度拍摄的照片拼接成一张完整的俯视地图,BEV模型让车辆能更直观地理解周围物体(车辆、行人、障碍物)的位置、大小和运动状态,这对自动驾驶决策至关重要。

1.2 为什么选择PETRV2?

PETRV2是PaddlePaddle 3D开发套件中的一个先进BEV感知模型。它有几个突出的优点:

  • 多视角融合:能有效融合来自多个摄像头的数据
  • 实时性能:在保持高精度的同时,推理速度快
  • 开源友好:基于飞桨框架,社区支持完善

1.3 云端训练的必要性

训练一个BEV模型通常需要:

  • 高性能GPU(至少一块,理想情况是多块并行)
  • 大量存储空间(数据集往往几十GB)
  • 稳定的训练环境(训练可能持续数天)

对于个人开发者或小团队来说,购买和维护这样的硬件成本很高。而云端算力平台提供了一个“随用随租”的解决方案——就像使用共享单车一样,你需要的时候租用,用完就释放,既经济又灵活。

星图AI算力平台(https://ai.csdn.net/compute-power)正是这样一个平台,它提供了:

  • 预置的深度学习环境
  • 按小时/天/月计费的GPU资源
  • 简单的SSH访问方式

二、操作步骤

2.1 创建算力实例

步骤解析:
  1. 选择合适镜像:我们在星图AI上预置了一个包含PETRV2环境的镜像
  2. 购买时长: 培训GPU配置及时长
  3. 等待实例启动:大约15分钟,系统会自动配置好所有环境

为什么需要15分钟?

  • 系统需要从镜像仓库拉取约10GB的容器镜像
  • 配置GPU驱动和CUDA环境
  • 初始化存储空间和网络设置

小贴士:
  • 如果只是测试,申请1小时就够了
  • 正式训练时根据数据集大小调整时长
  • 记得在不用时主动释放实例,避免产生额外费用

2.2 连接到容器环境

# 从平台控制台复制SSH命令ssh-p[端口号]root@[服务器地址]

连接成功后的验证

  1. 输入nvidia-smi查看GPU状态
  2. 确认CUDA版本是否匹配
  3. 检查磁盘空间是否充足

2.3 准备训练环境

为什么需要conda环境?

Conda是Python的环境管理工具,它允许我们在同一台机器上创建多个独立的Python环境。这样不同项目可以使用不同版本的库,避免版本冲突。

# 激活预配置的环境conda activate paddle3d_env# 验证环境python --version pip list|greppaddle

2.4 下载模型和数据

2.4.1 下载预训练权重
wget-O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

预训练权重的作用

  • 模型已经在大量数据上学习过基本特征
  • 可以加速训练收敛
  • 特别适合数据量较小的场景
2.4.2 下载nuscenes数据集
# 下载mini版数据集wget-O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz# 解压到指定目录mkdir-p /root/workspace/nuscenestar-xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

关于nuscenes数据集

  • 自动驾驶领域权威数据集
  • 包含1000个场景,每个场景20秒
  • 提供相机、激光雷达、GPS/IMU等多传感器数据
  • mini版包含10个场景,适合快速验证

2.5 训练流程详解

2.5.1 数据预处理
cd/usr/local/Paddle3D# 清理旧的标注文件rm/root/workspace/nuscenes/petr_nuscenes_annotation_* -f# 创建PETR格式的数据标注python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

预处理的作用

  • 将原始数据转换为模型能理解的格式
  • 生成训练、验证、测试集的划分
  • 提取关键信息(物体边界框、类别标签等)
2.5.2 精度测试(验证模型是否正常)
python tools/evaluate.py\--config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml\--model /root/workspace/model.pdparams\--dataset_root /root/workspace/nuscenes/

关键指标解释

  • mAP(平均精度):越高越好,表示检测准确率
  • mATE(平均平移误差):越低越好,表示位置预测误差
  • mASE(平均尺度误差):越低越好,表示大小预测误差
  • NDS(NuScenes检测分数):综合评分,主要参考指标

输出

mAP:0.2669mATE:0.7448mASE:0.4621mAOE:1.4553mAVE:0.2500mAAE:1.0000NDS:0.2878Eval time:5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car0.4460.6260.1681.7350.0001.000truck0.3810.5000.1991.1130.0001.000bus0.4070.6590.0642.7190.0001.000trailer0.0001.0001.0001.0001.0001.000construction_vehicle0.0001.0001.0001.0001.0001.000pedestrian0.3780.7370.2631.2590.0001.000motorcycle0.3560.7480.3141.4100.0001.000bicycle0.0630.7600.2361.8620.0001.000traffic_cone0.6370.4180.377nan nan nan barrier0.0001.0001.0001.000nan nan
2.5.3 开始训练
python tools/train.py\--config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml\--model /root/workspace/model.pdparams\--dataset_root /root/workspace/nuscenes/\--epochs100\--batch_size2\--log_interval10\--learning_rate 1e-4\--save_interval5\--do_eval

参数详解

  • --epochs 100:训练100轮
  • --batch_size 2:每次处理2个样本(受限于GPU显存)
  • --learning_rate 1e-4:学习率,控制参数更新幅度
  • --do_eval:每轮结束后进行验证
2.5.4 可视化训练过程
# 启动VisualDL可视化工具visualdl --logdir ./output/ --host0.0.0.0

端口转发技巧
由于云服务器通常不直接开放Web端口,我们需要通过SSH隧道进行访问:

ssh-p31264-L0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

这是什么原理?

  • 将本地的8888端口映射到远程的8040端口
  • 访问本地http://localhost:8888实际上访问的是远程的VisualDL服务

在VisualDL中你可以看到

  • 损失函数下降曲线
  • 验证指标变化趋势
  • 学习率调整情况
2.5.5 模型导出与部署

训练完成后,我们需要将训练模型导出为推理格式:

# 创建导出目录rm-rf /root/workspace/nuscenes_release_modelmkdir-p /root/workspace/nuscenes_release_model# 导出模型python tools/export.py\--config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml\--model output/best_model/model.pdparams\--save_dir /root/workspace/nuscenes_release_model

导出文件说明

  • model.pdmodel:模型结构文件
  • model.pdiparams:模型权重文件
  • model.pdiparams.info:模型信息文件
2.5.6 运行Demo验证
python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

Demo功能

  • 加载测试数据
  • 使用导出的模型进行推理
  • 可视化检测结果

2.6 进阶:训练xtreme1数据集

如果你有更多时间,可以尝试更大的xtreme1数据集:

2.6.1、准备数据集
# 数据预处理(假设数据已上传到/root/workspace/xtreme1_nuscenes_data/)cd/usr/local/Paddle3Drm/root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/
2.6.2、测试精度
python tools/evaluate.py\--config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml\--model /root/workspace/model.pdparams\--dataset_root /root/workspace/xtreme1_nuscenes_data/# 开始训练python tools/train.py\--config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml\--model /root/workspace/model.pdparams\--dataset_root /root/workspace/xtreme1_nuscenes_data/\--epochs100\--batch_size2\--log_interval10\--learning_rate 1e-4\--save_interval5\--do_eval
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/17 14:37:44

Voice Sculptor:支持细粒度控制的中文语音合成模型实战

Voice Sculptor:支持细粒度控制的中文语音合成模型实战 1. 引言 1.1 业务场景描述 在当前内容创作、虚拟主播、有声读物、智能客服等应用场景中,对个性化、情感化语音合成的需求日益增长。传统的TTS(Text-to-Speech)系统往往只…

作者头像 李华
网站建设 2026/1/17 20:20:15

如何5步掌握GTA5菜单注入:YimMenu完整使用指南

如何5步掌握GTA5菜单注入:YimMenu完整使用指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

作者头像 李华
网站建设 2026/1/17 20:50:21

Open Interpreter模型微调:优化Qwen3-4B代码生成能力

Open Interpreter模型微调:优化Qwen3-4B代码生成能力 1. 背景与技术选型 随着大语言模型(LLM)在代码生成领域的广泛应用,开发者对本地化、高安全性和可定制化的AI编程助手需求日益增长。Open Interpreter 作为一款开源的本地代码…

作者头像 李华
网站建设 2026/1/16 23:48:58

YimMenu完全配置指南:5步掌握GTA5终极菜单系统

YimMenu完全配置指南:5步掌握GTA5终极菜单系统 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

作者头像 李华
网站建设 2026/1/17 23:39:26

HY-MT1.5-1.8B模型压缩实战:量化与剪枝技术应用

HY-MT1.5-1.8B模型压缩实战:量化与剪枝技术应用 1. 引言 1.1 业务场景描述 随着大模型在企业级机器翻译场景中的广泛应用,推理效率与部署成本成为制约其落地的关键因素。Tencent-Hunyuan/HY-MT1.5-1.8B 是一款基于 Transformer 架构的高性能翻译模型&…

作者头像 李华
网站建设 2026/1/17 5:10:42

GLM-ASR-Nano-2512架构解析:Transformers在ASR中的应用

GLM-ASR-Nano-2512架构解析:Transformers在ASR中的应用 1. 技术背景与问题提出 自动语音识别(Automatic Speech Recognition, ASR)是人机交互的核心技术之一,广泛应用于智能助手、会议转录、语音字幕生成等场景。近年来&#xf…

作者头像 李华