在Azure AI Foundry中管理AI模型部署时,理解配额(quota)、TPM(Tokens-Per-Minute)和RPM(Requests-Per-Minute)之间的关系至关重要。这三个指标共同决定了您服务的容量、性能和可扩展性。本文将深入探讨它们之间的计算公式和对应关系,帮助您优化资源配置和成本管理。
核心概念解析
- 配额(Quota):Azure AI Foundry中的基本容量单位,用于控制对AI模型端点的访问
- TPM(Tokens-Per-Minute):每分钟处理的令牌数限制,衡量令牌处理能力
- RPM(Requests-Per-Minute):每分钟处理的请求数限制,衡量请求处理频率
1. 核心换算公式
基本关系
1 配额单位(quota) ≈ 1,000 TPM(Tokens-Per-Minute)具体换算公式
TPM = 配额值 × 1,000 RPM = 配额值 × 3案例计算
假设您有以下配额分配:
配额 = 15,000 TPM = 15,000 × 1,000 = 15,000,