news 2026/6/23 18:10:05

【AIGC】即梦omnihuaman-api调用实现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AIGC】即梦omnihuaman-api调用实现

即梦数字人视频生成(Streamlit Demo)

基于火山引擎即梦(Jimeng)CV API的数字人视频生成示例项目。

支持图片 + 音频驱动的数字人视频生成流程,集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能,适合内部测试 / 技术演示 / 二次开发


一、功能概览

✅ 核心功能

  • 🔐AK / SK 在线填写

  • 支持火山引擎 Access Key / Secret Key 在页面中直接输入

  • 无需写死在代码中,便于多账号切换

  • api key申请地址:https://console.volcengine.com/iam/keymanage

  • 🖼图片上传(人物图像)

  • 支持 JPG / PNG 格式

  • 自动保存到本地并生成公网可访问 URL

  • 🎵音频上传(驱动音频)

  • 支持 MP3 / WAV 格式

  • 作为数字人说话 / 表情驱动音频

  • 🔍人物 / 主体检测

  • 调用即梦目标检测接口

  • 自动识别图片中的多个主体

  • 返回每个主体对应的 Mask

  • ✂️Mask 裁剪与可视化预览

  • 根据 Mask 自动裁剪主体区域

  • 按最长边缩放,统一预览尺寸

  • 🧩主体选择机制

  • 可从多个检测到的主体中选择

  • 支持「不使用 Mask,直接使用原图」模式

  • ✏️Prompt 驱动控制

  • 支持输入文本 Prompt

  • 用于控制表情、稳定性、真实感、风格等

  • 🎬数字人视频生成

  • 提交视频生成任务

  • 自动轮询任务状态

  • 📥视频结果展示与下载

  • 生成完成后可直接在线播放

  • 支持下载 MP4 文件

  • 视频按「时间 + UUID」自动命名并保存


二、运行环境要求

  • Python≥ 3.9(推荐 3.10)

  • 操作系统:Linux / macOS / Windows

  • 一个可公网访问的静态文件服务(用于图片和音频 URL)

⚠️ 火山引擎接口要求:

图片和音频 URL必须可以被公网直接访问


三、依赖安装

1️⃣ 创建虚拟环境(强烈推荐)

python -m venv venvsourcevenv/bin/activate

Windows:

venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装:

pipinstallstreamlit requests pillow numpy

或使用requirements.txt

streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23
pipinstall-r requirements.txt

四、目录结构说明

. ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保res目录存在:

mkdir-p res

五、静态文件服务配置(非常重要)

项目中会将上传的图片 / 音频保存到本地目录,并通过 HTTP 方式对外暴露。

示例配置(本地测试)

UPLOAD_DIR="/home/yourname/data/uploads"PUBLIC_BASE_URL="http://你的IP:8000"

启动一个简单的 HTTP 服务:

cd/home/yourname/data/uploads python -m http.server8000

生产环境建议使用:

  • nginx
  • caddy
  • cloudflared

生产环境配置步骤

  • 安装cloudflared
# 下载wgethttps://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64# 改名mvcloudflared-linux-amd64 cloudflared# 加执行权限chmod+x cloudflared# 移到 PATHsudomvcloudflared /usr/local/bin/
  • 启动运行

本地启动 HTTP 服务

cd/home/yourname/data/uploads python -m http.server8000

新开一个终端,启动隧道

cloudflared tunnel --url http://localhost:8000

会看到类似输出:

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

streamlit run app.py

浏览器访问:

http://localhost:8501

七、使用流程说明

  1. 打开页面,输入Access Key / Secret Key

  2. 上传一张人物图片

  3. 上传一段音频文件

  4. (可选)输入Prompt 描述

  5. 点击「开始检测」

  6. 从检测到的主体中选择目标(或选择原图)

  7. 等待视频生成完成

  8. 在线预览并下载生成的视频


八、常见注意事项

  • 建议使用清晰正脸人物图像

  • 音频时长不宜过长(建议 < 60 秒)

  • 若接口返回失败,请重点检查:

  • AK / SK 是否正确

  • 图片 / 音频 URL 是否能被公网访问

  • 文件格式是否符合要求


九、适用场景

  • 数字人 / 虚拟人能力演示

  • 内部技术验证

  • API 调用示例参考

  • 二次开发或功能扩展基础工程


十、项目地址及页面

  • https://github.com/min-star/omnihuman-api.git

  • 页面展示


十一、免责声明

本项目仅作为火山引擎即梦 API 使用示例(Demo)

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接:https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman


十二、可扩展方向(建议)

  • Docker 一键部署

  • AK / SK 使用环境变量管理

  • 多任务队列 / 并发控制

  • 历史任务与结果管理

  • Prompt 模板与预设管理


如需进一步定制或扩展,请根据实际业务需求进行二次开发。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 18:11:10

从零搭建自动驾驶校准Agent:5类关键参数调优秘籍首次公开

第一章&#xff1a;自动驾驶传感器Agent校准概述自动驾驶系统依赖多类传感器协同工作&#xff0c;包括激光雷达&#xff08;LiDAR&#xff09;、摄像头、毫米波雷达和超声波传感器等。这些传感器构成的感知Agent必须经过精确校准&#xff0c;以确保空间数据的一致性与时间序列上…

作者头像 李华
网站建设 2026/6/23 18:21:10

IDM激活脚本完全指南:告别30天试用期的终极解决方案

还在为Internet Download Manager试用期到期而烦恼吗&#xff1f;每次重新安装软件的繁琐操作是不是让你头疼不已&#xff1f;今天我要为你介绍这款真正实用的IDM激活脚本&#xff0c;让你彻底告别这些困扰&#xff01;无论是技术小白还是资深用户&#xff0c;都能轻松上手&…

作者头像 李华
网站建设 2026/6/23 18:17:42

IndexTTS2语音合成终极指南:零基础快速上手指南

IndexTTS2语音合成终极指南&#xff1a;零基础快速上手指南 【免费下载链接】index-tts An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 项目地址: https://gitcode.com/gh_mirrors/in/index-tts IndexTTS2是一款革命性的工业级可控零…

作者头像 李华
网站建设 2026/6/23 19:31:53

2、服务器端计算:构建按需企业的新范式

服务器端计算:构建按需企业的新范式 1. 服务器端计算的发展与变革 近年来,服务器端计算技术取得了显著进展。随着Windows Server 2003、Citrix MetaFrame XP Presentation Server等一系列产品的发布,以及众多第三方应用和解决方案提供商的推动,服务器端计算已成为主流技术…

作者头像 李华
网站建设 2026/6/23 23:18:08

教育AI知识库优化实战(百万级问答数据处理秘籍)

第一章&#xff1a;教育AI知识库的演进与挑战随着人工智能技术在教育领域的深度渗透&#xff0c;教育AI知识库经历了从静态资源聚合到动态智能服务的显著演进。早期的知识库多以结构化数据库或文档管理系统为主&#xff0c;依赖人工录入和分类。而如今&#xff0c;借助自然语言…

作者头像 李华