Appearance
Workers AI Baseline Reporting
Purpose
這份文件定義本 change 在成本與延遲上的對外說法邊界:
measured baseline只來自固定題組的真實 Workers AI 執行scenario estimate只是不同比例 / 流量假設下的外推,不能寫成正式實測總量
Measured Baseline Procedure
- 在部署環境執行:
bash
pnpm test:workers-ai-accepted-path- 立刻匯出對應 query log:
bash
wrangler d1 execute "${DB_NAME:-agentic-rag-db}" --remote --command \
"SELECT channel, decision_path, completion_latency_ms, workers_ai_runs_json, created_at FROM query_logs ORDER BY created_at DESC LIMIT 20;"只取固定 sample set 對應的四筆:
web + TC-01mcp + TC-01web + TC-06mcp + TC-06
從
workers_ai_runs_json記錄以下最小欄位:modelRolemodellatencyMsusage.promptTokensusage.completionTokensusage.totalTokensusage.cachedPromptTokens
另存同時間窗的 Workers AI / AI Gateway activity,確保 query log 與 gateway activity 可互相對上。
What Counts As Measured
只有下列內容可標成 measured baseline:
- 固定 sample set 四筆的
completion_latency_ms - 固定 sample set 四筆
workers_ai_runs_json中的 per-run latency / token usage - 同時間窗 Gateway / Analytics 顯示的 request presence 與 request count
以下內容不得標成 measured baseline:
- 一整天 / 一整學期的總成本推估
- 未執行題型的 token / latency 推論
- 使用 mock data 或人工假設換算出的成本
Required Wording
報告、海報、答辯簡報若引用這批數據,請用這種句型:
text
Measured baseline:以 2026-04-24 fixed sample smoke(TC-01 / TC-06,Web + MCP)實測,
Workers AI accepted-path query_logs 已記錄 completion latency 與 per-run token usage。
Scenario estimate:若每日查詢量與 prompt 長度接近本次 fixed sample,則可用這批實測 token / latency
作為外推基線;此外推不是正式 production total measurement。Reviewer Checklist
- 是否明確分開
measured baseline與scenario estimate - 是否引用固定 sample set,而不是臨時抽樣
- 是否保留
workers_ai_runs_json與 gateway activity 證據 - 是否避免把外推數字寫成「實際總成本」或「正式平均延遲」