路由策略
- 供应商:多供应商。每个供应商都要单独记录 RPM、TPM、余额、账单上限和状态页。
- 工作负载:Agent 工具调用。工具调用要分只读、草稿、写入和执行权限 写入前保留人工确认 记录每一步 tool call
- 建议保留跨供应商降级,但要统一响应格式、错误码、日志和成本统计。
- 敏感数据:默认脱敏、最小化输入,不把原文写入日志。
AI API / Rate Limit / 成本路由 / Key 安全
输入供应商、工作负载、请求量、tokens、重试率、缓存命中率、预算和当前限额,粗估 API 成本和峰值 TPM,生成路由、限流、降级、密钥安全和日志脱敏方案。适合 SaaS、站内工具、RAG、Agent 和批处理上线前评审。
适合放进技术方案、PRD、客户报价说明或上线评审。
# AI API 接入、限流与成本路由检查 ## 输入参数 - 供应商:多供应商 - 工作负载:Agent 工具调用 - 数据敏感度:客户资料 - 每日请求:3000 - 峰值 RPM:80 - 平均输入/输出 tokens:1200/600 - 缓存命中率:25% - 重试率:8% ## 成本与限流粗估 - 月成本粗估:$109.35 - 峰值 TPM 需求:155,520 - 限流结论:当前峰值可能超限,需要排队、缓存、降级或申请更高限额。 - 预算结论:当前粗估未超过月预算。 - 注意:价格和限额必须以供应商控制台和官方文档当日数据为准。 ## 路由策略 - 供应商:多供应商。每个供应商都要单独记录 RPM、TPM、余额、账单上限和状态页。 - 工作负载:Agent 工具调用。工具调用要分只读、草稿、写入和执行权限 写入前保留人工确认 记录每一步 tool call - 建议保留跨供应商降级,但要统一响应格式、错误码、日志和成本统计。 - 敏感数据:默认脱敏、最小化输入,不把原文写入日志。 ## 限流与重试 - 峰值 RPM 需求:80,配置限额:120。 - 峰值 TPM 需求:155,520,配置限额:120,000。 - 缓存命中率:25%;重试率:8%;有效日请求约 2,430。 - 429 使用指数退避和抖动;5xx 可短暂重试;余额不足或权限错误不要重试。 - 批处理、总结、离线评测放到低优先级队列,不要挤占在线客服/Agent 请求。 ## 密钥、日志与隐私 - 按供应商、环境、客户或项目拆 key;所有 key 都要可轮换。 - 环境变量建议:AI_PROVIDER、PRIMARY_MODEL、FALLBACK_MODEL、API_TIMEOUT_MS、MAX_OUTPUT_TOKENS、MONTHLY_BUDGET_USD。 - 日志建议:记录 request id、用户 id 哈希、模型、tokens、成本、延迟、错误码和路由结果。 - 脱敏建议:不要记录完整 prompt、客户原文、身份证、电话、地址、合同金额和 API key。 - 轮换建议:按环境拆 key,泄露后可单独撤销;生产 key 不给本地调试和前端页面。
提醒:本工具只做规划和粗估,不读取你的真实 API key,也不代表供应商实时价格或限额。正式上线前,请以供应商控制台、官方文档和真实压测为准。
先用工具做判断,再用模板整理交付。生成内容只能作为草稿,不要不审核就直接发给客户。