AI 工具指南

AI API / Rate Limit / 成本路由 / Key 安全

AI API 接入、限流与成本路由检查器

输入供应商、工作负载、请求量、tokens、重试率、缓存命中率、预算和当前限额,粗估 API 成本和峰值 TPM,生成路由、限流、降级、密钥安全和日志脱敏方案。适合 SaaS、站内工具、RAG、Agent 和批处理上线前评审。

路由策略

  • 供应商:多供应商。每个供应商都要单独记录 RPM、TPM、余额、账单上限和状态页。
  • 工作负载:Agent 工具调用。工具调用要分只读、草稿、写入和执行权限 写入前保留人工确认 记录每一步 tool call
  • 建议保留跨供应商降级,但要统一响应格式、错误码、日志和成本统计。
  • 敏感数据:默认脱敏、最小化输入,不把原文写入日志。

限流与重试

  • 峰值 RPM 需求:80,配置限额:120。
  • 峰值 TPM 需求:155,520,配置限额:120,000。
  • 缓存命中率:25%;重试率:8%;有效日请求约 2,430。
  • 429 使用指数退避和抖动;5xx 可短暂重试;余额不足或权限错误不要重试。
  • 批处理、总结、离线评测放到低优先级队列,不要挤占在线客服/Agent 请求。

密钥与日志

  • 按供应商、环境、客户或项目拆 key;所有 key 都要可轮换。
  • 环境变量建议:AI_PROVIDER、PRIMARY_MODEL、FALLBACK_MODEL、API_TIMEOUT_MS、MAX_OUTPUT_TOKENS、MONTHLY_BUDGET_USD。
  • 日志建议:记录 request id、用户 id 哈希、模型、tokens、成本、延迟、错误码和路由结果。
  • 脱敏建议:不要记录完整 prompt、客户原文、身份证、电话、地址、合同金额和 API key。
  • 轮换建议:按环境拆 key,泄露后可单独撤销;生产 key 不给本地调试和前端页面。

可复制 API 接入方案

适合放进技术方案、PRD、客户报价说明或上线评审。

# AI API 接入、限流与成本路由检查

## 输入参数
- 供应商:多供应商
- 工作负载:Agent 工具调用
- 数据敏感度:客户资料
- 每日请求:3000
- 峰值 RPM:80
- 平均输入/输出 tokens:1200/600
- 缓存命中率:25%
- 重试率:8%

## 成本与限流粗估
- 月成本粗估:$109.35
- 峰值 TPM 需求:155,520
- 限流结论:当前峰值可能超限,需要排队、缓存、降级或申请更高限额。
- 预算结论:当前粗估未超过月预算。
- 注意:价格和限额必须以供应商控制台和官方文档当日数据为准。

## 路由策略
- 供应商:多供应商。每个供应商都要单独记录 RPM、TPM、余额、账单上限和状态页。
- 工作负载:Agent 工具调用。工具调用要分只读、草稿、写入和执行权限 写入前保留人工确认 记录每一步 tool call
- 建议保留跨供应商降级,但要统一响应格式、错误码、日志和成本统计。
- 敏感数据:默认脱敏、最小化输入,不把原文写入日志。

## 限流与重试
- 峰值 RPM 需求:80,配置限额:120。
- 峰值 TPM 需求:155,520,配置限额:120,000。
- 缓存命中率:25%;重试率:8%;有效日请求约 2,430。
- 429 使用指数退避和抖动;5xx 可短暂重试;余额不足或权限错误不要重试。
- 批处理、总结、离线评测放到低优先级队列,不要挤占在线客服/Agent 请求。

## 密钥、日志与隐私
- 按供应商、环境、客户或项目拆 key;所有 key 都要可轮换。
- 环境变量建议:AI_PROVIDER、PRIMARY_MODEL、FALLBACK_MODEL、API_TIMEOUT_MS、MAX_OUTPUT_TOKENS、MONTHLY_BUDGET_USD。
- 日志建议:记录 request id、用户 id 哈希、模型、tokens、成本、延迟、错误码和路由结果。
- 脱敏建议:不要记录完整 prompt、客户原文、身份证、电话、地址、合同金额和 API key。
- 轮换建议:按环境拆 key,泄露后可单独撤销;生产 key 不给本地调试和前端页面。

上线前检查清单

提醒:本工具只做规划和粗估,不读取你的真实 API key,也不代表供应商实时价格或限额。正式上线前,请以供应商控制台、官方文档和真实压测为准。

API 路由检查后下一步

先用工具做判断,再用模板整理交付。生成内容只能作为草稿,不要不审核就直接发给客户。