OK3588上使用Python进行NPU加速推理-育师

在OK3588上用Python释放NPU算力：从环境搭建到推理部署的完整实践

在边缘计算设备日益智能化的今天，如何让AI模型在嵌入式平台上跑得更快、更稳，是每个开发者都关心的问题。RK3588芯片凭借其内置6TOPS算力的NPU（神经网络处理单元），为高性能推理提供了硬件基础。而OK3588开发板作为这一架构的典型代表，正成为越来越多AIoT项目的核心载体。

但问题也随之而来：如何在一个资源受限的ARM64设备上，快速构建可复现的Python环境？怎样通过简洁的代码调用NPU进行加速推理？有没有高效的调试方式来提升开发效率？

答案其实已经集成在Miniconda-Python3.10镜像中——它不仅带来了轻量化的包管理能力，还预装了Jupyter和SSH服务，并天然兼容rknn_toolkit_lite2框架。接下来，我们就以MobileNet V1为例，一步步带你完成从连接设备到运行第一个NPU推理程序的全过程。

开发前准备：连接与交互

在动手写代码之前，首先要确保你能顺利访问开发板。推荐两种主流方式：Jupyter Notebook用于交互式探索，SSH用于远程命令行操作。两者可以并行使用，互不冲突。

使用Jupyter实现可视化开发

如果你习惯边写边看结果，Jupyter会是你的好搭档。启动后只需在浏览器输入：

http://<开发板IP>:8888

首次访问时需要Token，这个可以在终端启动Jupyter服务后看到：

jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root

复制输出中的完整URL即可免密登录。进入界面后，你可以创建.ipynb文件直接运行图像处理脚本，比如测试OpenCV是否正常工作：

import cv2 import matplotlib.pyplot as plt img = cv2.imread('test.jpg') img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) plt.imshow(img_rgb) plt.axis('off') plt.show()

这种方式特别适合做算法调优或教学演示，每一步都能即时反馈。不过要注意安全风险：不要将端口暴露在公网，必要时应设置密码或使用反向代理加固。

通过SSH实现高效远程开发

对于日常开发来说，SSH才是主力工具。它让你无需外接显示器，就能完全掌控开发板系统。

在主机终端执行：

ssh root@<开发板IP>

默认用户名通常是root，密码根据厂商设定可能是firefly或linaro。成功登录后，你就拥有了完整的Linux shell权限。

此时不仅可以运行Python脚本，还能用scp轻松传文件：

# 下载结果图到本地 scp root@<开发板IP>:/path/to/result.jpg ./result.jpg # 上传模型到开发板 scp model.rknn root@<开发板IP>:/root/models/

更进一步，配合 VS Code 的 Remote-SSH 插件，你甚至能在本地编辑器里实现语法高亮、自动补全和断点调试，真正享受桌面级开发体验。

部署RKNN模型：让NPU动起来

真正激动人心的部分来了——如何用Python调用NPU进行硬件加速推理？

核心依赖是 Rockchip 官方提供的rknn_toolkit_lite2工具包。它封装了底层驱动，提供了一套简洁的Python API，让我们能像使用PyTorch一样轻松加载和运行模型。

第一步：获取并安装工具链

先克隆官方仓库：

git clone https://github.com/rockchip-linux/rknn-toolkit2.git cd rknn-toolkit2/rknn_toolkit_lite2

找到适用于ARM64架构的wheel包，例如：

rknn_toolkit_lite2-1.6.0-cp310-cp310-linux_aarch64.whl

注意这里的cp310表示CPython 3.10版本，必须与当前使用的Miniconda-Python3.10镜像匹配，否则会报错“unsupported wheel”。

建议创建独立虚拟环境隔离依赖：

conda create -n npu_env python=3.10 conda activate npu_env pip install rknn_toolkit_lite2-1.6.0-cp310-cp310-linux_aarch64.whl

再安装常用库（推荐使用清华源加速）：

pip install opencv-python numpy --index-url https://pypi.tuna.tsinghua.edu.cn/simple

这样就搭好了完整的推理环境。

第二步：运行示例程序验证功能

切换到示例目录：

cd examples/inference_with_lite/ python test.py

如果一切正常，你会看到类似输出：

--> Load RKNN model done --> Init runtime environment done --> Running model Top5 results: ['space shuttle', 'airliner', 'wing', 'missile', 'catamaran'] done

这意味着NPU已经成功加载模型并完成推理。相比纯CPU运行，速度提升可达10倍以上，尤其在处理视频流或多路并发任务时优势明显。

深入代码：理解关键API与编程范式

现在我们来看test.py的核心逻辑，逐行拆解背后的机制。

if __name__ == '__main__': host_name = get_host() if host_name == 'RK3566_RK3568': rknn_model = './models/mobilenet_v1_rk3566.rknn' elif host_name == 'RK3588': rknn_model = './models/mobilenet_v1_rk3588.rknn' else: print("Unsupported platform: {}".format(host_name)) exit(-1) rknn_lite = RKNNLite() print('--> Load RKNN model') ret = rknn_lite.load_rkkn(rknn_model) if ret != 0: print('Load failed') exit(ret) print('done') ori_img = cv2.imread('./space_shuttle_224.jpg') img = cv2.cvtColor(ori_img, cv2.COLOR_BGR2RGB) print('--> Init runtime environment') ret = rknn_lite.init_runtime(core_mask=RKNNLite.NPU_CORE_0_1_2) if ret != 0: print('Init failed') exit(ret) print('done') print('--> Running model') outputs = rknn_lite.inference(inputs=[img]) show_top5(outputs) print('done') rknn_lite.release()

这段代码虽然不长，但涵盖了整个推理流程的关键环节。

关键API解析

方法	说明
`get_host()`	自动识别SoC型号，便于跨平台适配
`RKNNLite()`	创建轻量级运行时实例，内存占用小，启动快
`load_rknn(path)`	加载`.rknn`模型文件，内部完成反序列化与内存映射
`init_runtime(core_mask=...)`	初始化NPU运行环境，支持指定使用的NPU核心： •`NPU_CORE_0`: 单核 •`NPU_CORE_0_1`: 双核协同 •`NPU_CORE_0_1_2`: 三核全开（仅RK3588支持）
`inference(inputs=[...])`	执行前向推理，返回输出张量列表
`release()`	显式释放资源，防止内存泄漏

其中最值得强调的是core_mask参数。RK3588拥有三个独立NPU核心，合理利用多核模式可在高吞吐场景下显著提升性能。例如，在智能监控系统中同时处理多路摄像头输入时，完全可以启用全部三核来分担负载。

实战优化建议：不只是“能跑”，更要“跑得好”

当你已经能让模型跑起来之后，下一步就是让它跑得更快、更稳定。以下是几个经过验证的工程经验：

✅ 启用多核并行

rknn_lite.init_runtime(core_mask=RKNNLite.NPU_CORE_0_1_2)

这是最容易被忽略却收益最大的优化点之一。很多开发者默认只用单核，白白浪费了RK3588的硬件优势。

✅ 批量处理连续帧数据

对于视频流或传感器数据流，尽量避免逐帧调用inference()。改为积累一定数量后一次性传入，减少上下文切换开销。例如：

batch_inputs = [img1, img2, img3, img4] outputs = rknn_lite.inference(inputs=batch_inputs)

虽然目前rknn_toolkit_lite2对动态batch size支持有限，但在固定批次下仍可有效提升吞吐率。

✅ 使用INT8量化模型

精度换速度永远是一条可行路径。相比原始FP32模型，INT8量化后的.rknn文件体积更小、推理更快，且在多数视觉任务中精度损失小于2%。建议优先使用量化版本。

✅ 异步流水线设计

在实际应用中，图像预处理、NPU推理、后处理往往是串行瓶颈。可以通过线程池或异步队列实现流水线并行：

from concurrent.futures import ThreadPoolExecutor def async_infer(image): processed = preprocess(image) result = rknn_lite.inference([processed]) return postprocess(result) with ThreadPoolExecutor(max_workers=3) as executor: for img in video_stream: future = executor.submit(async_infer, img) # 继续读取下一帧，不阻塞

这种模式特别适合长时间运行的服务类应用。