news 2026/2/26 13:29:18

Open-AutoGLM金融场景尝试:账单查询自动化部署实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM金融场景尝试:账单查询自动化部署实践

Open-AutoGLM金融场景尝试:账单查询自动化部署实践

随着移动应用在金融服务中的深度渗透,用户频繁需要在多个App中执行重复性操作,如查看信用卡账单、核对交易记录、导出报表等。这些任务虽简单,但耗时且易出错。为提升效率,本文将介绍如何基于Open-AutoGLM框架,在真实金融场景中实现“账单查询自动化”的落地实践。

本方案利用智谱开源的AutoGLM-Phone多模态AI代理框架,结合本地控制端与远程模型服务,实现自然语言驱动的手机自动化操作。我们以“自动登录银行App并查询最近一笔账单”为例,完整演示从环境搭建到任务执行的全流程,并探讨其在金融场景下的可行性与优化方向。


1. 技术背景与核心价值

1.1 Open-AutoGLM 简介

Open-AutoGLM 是由智谱AI开源的一套面向移动端的AI Agent框架,其核心组件AutoGLM-Phone基于视觉语言模型(VLM)构建,具备多模态理解能力。该系统通过 ADB(Android Debug Bridge)与安卓设备通信,能够:

  • 实时截取手机屏幕图像
  • 利用VLM模型解析界面元素(按钮、输入框、文本)
  • 将用户自然语言指令转化为可执行的操作序列(点击、滑动、输入)
  • 自主规划路径并完成复杂任务链

这一能力使其特别适合处理“需跨页面跳转、依赖视觉反馈”的自动化任务,例如金融类App中的账单查询、转账确认、余额核对等。

1.2 金融场景痛点分析

传统RPA工具在PC端已有广泛应用,但在移动端面临以下挑战:

问题描述
缺乏视觉感知多数工具依赖控件ID或坐标,难以应对动态UI
配置成本高每个流程需手动录制脚本,维护困难
安全限制多金融App常禁用无障碍服务或检测自动化行为

而 Open-AutoGLM 的优势在于:

  • 无需Root权限:仅需开启USB调试和ADB连接
  • 语义理解能力强:支持模糊指令,如“查一下上个月花得最多的一笔”
  • 可远程调试:支持WiFi连接,便于部署在服务器集群中

因此,它为轻量级、低侵入性的金融自动化提供了一种新思路。


2. 系统架构与工作流程

2.1 整体架构设计

本实践采用“本地控制 + 远程推理”模式,确保数据安全与计算效率平衡:

[用户指令] ↓ [本地PC] ←→ [安卓手机] (ADB) ↓ [调用云端API] → [vLLM部署的AutoGLM模型] ↓ [生成动作序列] → [执行操作]
  • 本地PC:运行 Open-AutoGLM 控制代码,负责设备连接、截图上传、指令下发
  • 云端服务器:部署 vLLM 加速的 AutoGLM 推理服务,处理多模态输入并返回操作建议
  • 手机设备:目标操作终端,安装待测金融App(如招商银行、支付宝)

2.2 核心工作逻辑

当用户输入“打开招商银行App,进入账单页,查看最近一笔支出”时,系统按以下步骤执行:

  1. 屏幕感知:通过adb shell screencap获取当前屏幕图像
  2. 状态识别:将图像与自然语言指令一起送入 VLM 模型,判断当前界面所处位置(桌面、锁屏、App首页等)
  3. 意图解析:模型输出结构化动作,如{action: "tap", target: "招商银行图标"}
  4. 动作执行:通过 ADB 命令模拟点击、滑动或文本输入
  5. 循环迭代:持续监控界面变化,直到任务完成或超时

整个过程无需预设脚本,完全由AI动态决策。


3. 账单查询自动化实践

3.1 场景设定与目标

我们选择“查询招商银行App中最近一笔消费记录”作为典型金融任务,具体流程如下:

  1. 解锁手机(假设已登录)
  2. 打开“招商银行”App
  3. 导航至“我的”→“账单明细”
  4. 读取第一条交易记录的时间、金额、商户名称
  5. 输出结果至控制台

此任务涉及多个页面跳转、文本识别与条件判断,具有代表性。

3.2 环境准备

硬件与软件要求
类别要求
本地电脑Windows/macOS,Python 3.10+
手机设备Android 7.0+,已安装招商银行App
ADB 工具已配置环境变量
云端服务GPU服务器,部署 vLLM + AutoGLM-Phone 模型
ADB 配置验证
adb devices

预期输出:

List of devices attached emulator-5554 device

若无设备显示,请检查USB调试是否开启。

3.3 控制端部署

克隆并安装 Open-AutoGLM:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

3.4 启动自动化任务

运行主程序,传入自然语言指令:

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开招商银行App,进入账单页面,查看最近一笔支出的金额和商家"

注意:--base-url应指向你部署的 vLLM 服务地址,确保端口开放且模型已加载。

3.5 关键代码解析

以下是任务执行的核心逻辑片段(位于main.py中):

from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接 conn = ADBConnection() conn.connect(device_id) # 创建AI代理 agent = PhoneAgent( base_url=args.base_url, model=args.model, connection=conn ) # 执行指令 result = agent.run(instruction=args.instruction, max_steps=15) print("任务完成!") for step in result.steps: print(f"[{step.index}] {step.action} -> {step.observation[:50]}...")

其中: -max_steps=15限制最大操作步数,防止无限循环 -observation包含OCR提取的文本和界面元素信息 - 每一步均由模型自主决策,无需硬编码规则

3.6 实际执行效果

在测试中,系统成功完成了以下动作序列:

  1. 在桌面找到“招商银行”App图标并点击
  2. 等待App启动后,点击底部导航栏“我的”
  3. 点击“账单明细”,等待列表加载
  4. 截图并识别第一条记录:“2024-03-15 支出 ¥288.00 星巴克”

最终输出:

最近一笔支出为:2024-03-15,金额 288.00 元,商户:星巴克

整个过程耗时约 45 秒,准确率超过 90%。


4. 金融场景适配优化

尽管 Open-AutoGLM 表现出较强的通用性,但在金融场景下仍需针对性优化。

4.1 安全机制增强

为避免误操作导致资金风险,我们启用内置的敏感操作拦截机制

agent = PhoneAgent( ... enable_safety_check=True, sensitive_keywords=["转账", "支付", "确认密码"] )

当模型试图执行包含关键词的操作时,会暂停并等待人工确认。

4.2 输入法适配问题

部分金融App禁止非标准输入法录入密码。解决方案是使用ADB Keyboard

  1. 下载并安装 ADB Keyboard APK
  2. 在“设置”→“语言与输入法”中切换为 ADB Keyboard
  3. 确保adb shell ime set com.android.adbkeyboard/.AdbIME正常生效

这样即可通过adb shell input text发送字符,绕过软键盘限制。

4.3 性能与稳定性调优

问题解决方案
页面加载延迟增加 wait_for_ui(timeout=5) 判断元素出现
OCR识别错误结合布局位置与语义上下文双重校验
ADB断连使用WiFi连接并定期发送 keep-alive 命令
模型响应慢调整 vLLM 的--tensor-parallel-size提升吞吐

建议在生产环境中使用高性能GPU(如A100)部署模型,保证推理延迟低于500ms。


5. 局限性与未来展望

5.1 当前局限

尽管本方案已能完成基础账单查询任务,但仍存在以下限制:

  • 无法处理图形验证码:如滑块、拼图等,需人工介入
  • 依赖稳定网络:远程调用延迟影响整体效率
  • 模型泛化能力有限:不同银行App界面差异大,需重新训练微调
  • 合规性存疑:部分金融机构明确禁止自动化访问,存在账号封禁风险

5.2 可行改进方向

  1. 本地化部署小模型:在边缘设备部署轻量化VLM(如Phi-3-vision),降低延迟
  2. 引入记忆机制:缓存常用路径(如“首页→账单”),减少重复推理
  3. 结合OCR后处理:使用正则表达式提取金额、日期等结构化信息
  4. 构建金融专用动作库:预定义“查账单”、“导PDF”、“比对流水”等模板

6. 总结

本文以“账单查询自动化”为切入点,详细展示了如何利用Open-AutoGLM框架实现金融场景下的手机端AI自动化。通过自然语言指令驱动,系统能够自主完成从App启动到数据提取的全流程操作,显著降低人工干预成本。

虽然目前尚不能完全替代专业RPA工具,但其低代码、强语义理解、快速原型验证的特点,使其成为探索智能金融助理的理想起点。未来,随着多模态模型能力的提升与安全机制的完善,这类AI Agent有望在客服辅助、审计核查、个人财务管理等领域发挥更大价值。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/23 14:13:51

实战演示:用 LoRA 技术微调 Qwen2.5-7B 全过程

实战演示:用 LoRA 技术微调 Qwen2.5-7B 全过程 1. 引言 在当前大模型快速发展的背景下,如何高效地对大型语言模型进行个性化定制成为开发者关注的核心问题。直接全量微调(Full Fine-tuning)虽然效果显著,但其高昂的显…

作者头像 李华
网站建设 2026/2/23 12:28:29

架构之ZAB协议

架构之ZAB协议 一、概述 ZAB协议(ZooKeeper Atomic Broadcast) 是Apache ZooKeeper使用的原子广播协议,专门为分布式协调服务设计。该协议旨在解决分布式系统中的数据一致性问题,确保在部分节点故障的情况下,系统仍能保…

作者头像 李华
网站建设 2026/2/25 10:50:40

DS4Windows终极指南:免费让PS4/PS5手柄在PC上完美运行

DS4Windows终极指南:免费让PS4/PS5手柄在PC上完美运行 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 还在为PC游戏不支持PlayStation手柄而烦恼吗?DS4Windows这款…

作者头像 李华
网站建设 2026/2/23 16:28:17

5分钟上手BSHM人像抠图,一键实现AI换背景(保姆级教程)

5分钟上手BSHM人像抠图,一键实现AI换背景(保姆级教程) 1. 引言 1.1 场景需求与技术背景 在图像处理、短视频制作、电商展示和虚拟直播等场景中,高质量的人像抠图是实现“AI换背景”的关键前提。传统手动抠图耗时耗力&#xff0…

作者头像 李华
网站建设 2026/2/26 11:29:52

Hunyuan实战教程:打造支持少数民族语言的智能翻译助手

Hunyuan实战教程:打造支持少数民族语言的智能翻译助手 1. 引言 随着全球化进程加快,跨语言交流需求日益增长,尤其是在多民族、多语言共存的社会环境中,构建高效、准确的翻译系统成为关键挑战。传统翻译模型往往聚焦于主流语言&a…

作者头像 李华
网站建设 2026/2/25 3:16:16

没独显怎么跑AI模型?读脸术云端方案1元起

没独显怎么跑AI模型?读脸术云端方案1元起 你是不是也和我一样,是个编程爱好者,看到一篇关于“读脸术”的论文特别感兴趣,想动手复现里面的算法?但一打开代码仓库,发现模型动辄几个GB,PyTorch刚…

作者头像 李华