news 2026/6/23 20:37:48

阿里PAI平台使用ESA部署模型滚动更新

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里PAI平台使用ESA部署模型滚动更新

阿里PAI平台使用ESA部署模型滚动更新

场景:

阿里PAI平台使用ESA部署模型,vllm部署双卡,双实例

EAS滚动更新配置:

超过期望实例数:{”rolling_strategy.max_surge“:1}

  • 超过期望的实例数(JSON参数:rolling_strategy.max_surge

    • 描述:更新时最多可额外创建的实例数,支持正整数或百分比。值越大,更新越快。
    • 例如:100个实例,配置为20,则更新开始即创建20个新实例。
    • **默认值:**实例总数的2%(不足1时取1)。

    重要

    超过期望的实例数过大时,大量新实例上线后会立即替换等量旧实例,若新实例未预热,突增流量可能冲击服务稳定性。

最大不可用实例数: {“rolling_strategy.max_unavailable”:0}

  • 最大不可用实例数(JSON参数:rolling_strategy.max_unavailable

    • **描述:**更新过程中允许的最大不可用实例数,用于释放资源,防止因资源不足导致更新过程被阻碍。
    • 例如:设为N,更新开始时立即停止N个旧实例。
    • 默认值:
      • 专属资源组:2025年9月1日前创建的服务,默认为1。2025年9月1日后创建的服务,弹性资源池开启默认为0,未开启默认为1。
      • 公共资源组:0。
      • 灵骏智算Quota:2025年9月1日前创建的服务,默认为0。2025年9月1日后创建的服务,默认为实例数的2%(不足1时取1)。

    重要

    • 单实例服务若将最大不可用实例数设为1,滚动更新时旧实例会在新实例启动前退出,期间服务无可用实例,将短暂不可用。
    • 最大不可用实例数过大可能导致过多实例同时下线,剩余实例不足以承载流量,影响服务可用性。

EAS优雅退出配置:

优雅退出时间:{“eas.termination_grace_period”:60}

优雅退出时间(JSON参数:eas.termination_grace_period

  • **描述:**实例优雅退出等待时间,单位秒。实例进入Terminating状态后,流量被摘除,系统等待30秒让其处理完已接收请求后再下线。若请求处理时间较长,建议调大该值。
  • **默认值:**30

是否发送SIGTERM:{“rpc.enable_sigterm”: false}

是否发送SIGTERM(JSON参数:rpc.enable_sigterm

  • **描述:**SIGTERM是终止进程的信号。JSON参数取值true、false。
    • false:实例退出时不会发送SIGTERM信号。
    • true:实例退出时,系统立即发送SIGTERM信号,服务主进程需在信号处理函数中实现自定义优雅退出逻辑,否则可能直接终止,导致优雅退出失败。
  • **默认值:**不发送(false)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 6:07:02

PyTorch安装避坑指南 + vLLM性能调优技巧

PyTorch安装避坑指南 vLLM性能调优技巧 在大模型落地加速的今天,很多团队都面临着一个尴尬的局面:模型能力足够强,API 一上线就崩。不是显存爆了,就是吞吐上不去——明明用的是 A100 集群,QPS 还不如一台老款 T4。问…

作者头像 李华
网站建设 2026/6/23 7:05:36

AutoGPT与Metabase Plus集成:增强版报表自动化

AutoGPT与Metabase Plus集成:增强版报表自动化 在企业数据爆炸式增长的今天,传统的“人查系统”模式正面临前所未有的挑战。分析师每天被淹没在重复性的日报、周报和临时查询中,而业务决策却常常滞后于市场变化。一个典型的场景是&#xff1a…

作者头像 李华
网站建设 2026/6/23 3:22:35

PyTorch安装后如何加载Qwen3-VL-8B进行多模态推理

PyTorch安装后如何加载Qwen3-VL-8B进行多模态推理 在智能应用日益依赖“看图说话”能力的今天,多模态大模型正成为连接视觉与语言的核心桥梁。无论是电商平台自动识别商品属性,还是客服系统理解用户上传的截图问题,背后都离不开像 Qwen3-VL-8…

作者头像 李华
网站建设 2026/6/23 9:01:27

【收藏必看】2025大模型技术岗位全景图:15大方向详解,助你成为AI人才

本文详细介绍了15个大模型相关技术岗位的招聘信息,涵盖推理优化、框架研发、训练加速、多模态研究等多个方向。各岗位明确了职责要求和技能门槛,包括编程语言、框架经验、并行计算等核心技术能力,为有志于进入大模型领域的开发者提供全面的职…

作者头像 李华
网站建设 2026/6/23 19:06:17

LobeChat支持GraphQL接口吗?API扩展能力分析

LobeChat 的 API 扩展之路:GraphQL 是否可行? 在构建现代 AI 聊天应用时,开发者越来越关注系统的可扩展性与前后端协作效率。LobeChat 作为一款基于 Next.js 的开源大语言模型(LLM)交互门户,凭借其优雅的 U…

作者头像 李华
网站建设 2026/6/23 20:14:02

LobeChat能否实现对话分享功能?链接公开化实践

LobeChat 能否实现对话分享?一场关于链接公开化的工程实践 在今天,一个 AI 聊天工具是否“好用”,早已不再仅仅取决于它能多快给出答案。真正决定用户体验上限的,是它能否让这些对话走出个人设备,变成可传播、可复用、…

作者头像 李华