ステータス: テンプレート(未着手) — セクション枠だけ用意。Phase 1 着手前に中身を埋める。
採用モデル
TODO: 採用 LLM(Claude / GPT / 国内モデル)と選定理由、コスト見積もり、フォールバック戦略。
システムプロンプト構成
TODO: 全体構造(ロール定義 / ショップ固有設定 / ナレッジ参照ルール / Tool 使用ガイド / 応答フォーマット)。テンプレ化とショップ別カスタマイズの境界を明示。
Tool 定義
TODO: エージェントが呼び出せる Tool の一覧(注文照会・キャンセル・住所変更・返品リクエスト・FAQ検索 等)。各 Tool の input/output スキーマ、Shopify Admin GraphQL マッピング(各 `customer/*.html#impl` の「実装仕様」セクション参照)、副作用の有無、確認ステップ要否。
RAG 戦略
TODO: ナレッジ検索の戦略。クエリ拡張・ハイブリッド検索(BM25 + ベクトル)・リランキング・Top-K の決定方針。詳細パイプラインは ナレッジパイプライン 参照。
エスカレーション判断ロジック
TODO: いつ人間に渡すか。シナリオマトリクスの「対応不可」判定、信頼度しきい値、感情検出、明示要求の処理。
安全性・ガードレール
TODO: 越権操作の防止(払い戻し金額上限等)、プロンプトインジェクション対策、PII の扱い、ハルシネーション抑制方針。
品質・評価(Evals & QA)
TODO: AI 応答の品質を継続的に測る仕組み。ボリュームが増えたら独立ページ(`evals.html`)に切り出す前提。
- 評価セット — シナリオベース評価データの設計(マキシム CS 業務由来のリアルケース、エッジケース、敵対的入力)と版管理
- 品質指標 — 解決率 / 誤対応率 / エスカレ判定精度 / 平均応答時間 / 顧客満足度(CSAT 取得方式)
- リグレッション — プロンプト/モデル/Tool 変更時の自動評価フロー、合否しきい値、CI 連携
- 本番モニタリング — 会話ログサンプリング、低信頼度応答の自動フラグ、人手レビュー導線
- フィードバックループ — 事業者・顧客から得た指摘を評価セットに還流させる流れ
未決事項
TODO: シングルエージェント vs マルチエージェント、Function calling vs ReAct、メモリ層の持ち方等。