news 2026/6/23 4:19:05

【舱驾】- 多模态基础知识01

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【舱驾】- 多模态基础知识01

洞察

智舱,智驾,发展到目前,叫的比较欢还属AI座舱,舱驾融合,多模态融合,端到端,VLA等。智驾VLA以及AI座舱的前提基础技术还属于多模态融合技术,AI智能座舱融合的是xMS、语音;智驾VLA多模态融合的是车端感知(雷达,影像,语音,Sensor等)。

命题

最基础的多模融合应该采用什么技术框架?如何做到数据同步,统一链路,统一接口?

解题

1. 采用MediaPipe架构,构建多模态感知-生成一体化

MediaPipe是一款专为各类平台上的高性能、实时感知流程打造的专用框架。

MediaPipe介绍:

MediaPipe Solutions 提供了一套库和工具,可帮助您在应用中快速应用人工智能 (AI) 和机器学习 (ML) 技术。您可以立即将这些解决方案插入到应用中,根据自己的需求进行自定义,并在多个开发平台上使用它们。MediaPipe Solutions 是 MediaPipe 开源项目的一部分,因此您可以进一步自定义解决方案代码,以满足您的应用需求。MediaPipe Solutions 套件包括以下内容:

可用的解决方案

MediaPipe 解决方案可在多个平台上使用。每种解决方案都包含一个或多个模型,您还可以为某些解决方案自定义模型。下表显示了每种受支持的平台可用的解决方案,以及是否可以使用 Model Maker 自定义模型:

解决方案AndroidWebPythoniOS自定义模型
LLM Inference API
对象检测
图片分类
图片分割
交互式分割
手部地标检测
手势识别
图片嵌入
人脸检测
人脸特征点检测
姿势地标检测
图片生成
文本分类
文本嵌入
语言检测器
音频分类

Google原文:https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2

Github链接:https://github.com/google-ai-edge/mediapipehttps://github.com/google-ai-edge/mediapipe

第三方介绍:https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988

2. 采用分离方案

影像,音频,文本采用独立的架构,基于系统原生基础框架。

比如:Android系统的Camera子系统,Audio子系统

3. 采用芯片原厂架构

比如NVIDIA, DRIVE OS中间件

4. 多模数据如何融合?

拿智驾为例:当前阶段以特征融合为主,基于融合方案,提高视觉、雷达等多源数据实时协同处理能力。

多模态特征融合引用链接:

https://blog.csdn.net/weixin_43840280/article/details/118070317https://blog.csdn.net/weixin_43840280/article/details/118070317

总结

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 16:26:13

AI元人文构想:人机协作的“未来哪吒”架构

AI元人文构想:人机协作的“未来哪吒”架构——悟空来路与关山,提供了从哲学到实践的完整跃迁路径作者:岐金兰与她的手机AI们摘要本文从“余溪诗学空间”出发,系统评述了岐金兰提出的“AI元人文构想”。该构想以价值原语化为哲学内…

作者头像 李华
网站建设 2026/6/23 16:26:11

Qwen-Image:突破文本渲染与编辑的视觉生成模型

Qwen-Image:突破文本渲染与编辑的视觉生成模型 在当前AIGC技术飞速演进的背景下,图像生成早已不再局限于“能否画出一张像样的图”。真正的挑战在于——能否精准地将复杂语义转化为高保真、可编辑、结构一致的视觉内容。尤其是在中文场景下,…

作者头像 李华
网站建设 2026/6/22 17:50:07

四年累销600万,这就是“海洋速度”

今晚这场四周年盛典,比亚迪海洋网用数据直接“炸场”了! 四年干了啥? 一句话:销量飙出“海洋速度”!成立四年,累计销量600万辆,赶上了别人十年的路。宋PLUS、海鸥、海豚、海豹,个个…

作者头像 李华
网站建设 2026/6/23 4:09:16

Keras与TensorFlow-GPU配置避坑指南

Keras与TensorFlow-GPU配置避坑指南 在深度学习项目中,训练速度是决定迭代效率的关键。当你面对一个包含百万级参数的模型时,CPU上几小时的等待几乎无法忍受——而GPU的并行计算能力可以将这个时间缩短到几分钟。但理想很丰满,现实却常常骨感…

作者头像 李华
网站建设 2026/6/23 16:26:04

Redis + ThinkPHP 实战学习手册(含秒杀场景)

Redis ThinkPHP 实战学习手册(含秒杀场景) 目录基础准备:ThinkPHP 集成 RedisRedis 核心数据结构(ThinkPHP 用法)秒杀场景核心:Redis 原子性与事务ThinkPHP Redis 实战场景(秒杀 / 缓存 / 限流…

作者头像 李华
网站建设 2026/6/23 2:53:03

展锐平台:修复使用触控笔主动橡皮擦键功能时, InputDispatcher 发生了致命错误(F 级别),导致 system_server 进程崩溃并重启。

接上篇文章:展锐平台:记录一次带触控笔的MIPI屏幕调试踩坑过程,在使用触控笔的主动橡皮擦功能时,系统会出现类似重启的现象。之所以说是类似重启,是因为从log中看,整个系统是还在运行的,只是某些…

作者头像 李华