エージェント設計

プロダクトのコアである LLM エージェントの設計を集約。モデル選定・システムプロンプト・Tool 定義・RAG 戦略・エスカレーション判断ロジック。

ステータス: テンプレート（未着手） — セクション枠だけ用意。Phase 1 着手前に中身を埋める。

採用モデル

TODO: 採用 LLM（Claude / GPT / 国内モデル）と選定理由、コスト見積もり、フォールバック戦略。

システムプロンプト構成

TODO: 全体構造（ロール定義 / ショップ固有設定 / ナレッジ参照ルール / Tool 使用ガイド / 応答フォーマット）。テンプレ化とショップ別カスタマイズの境界を明示。

Tool 定義

TODO: エージェントが呼び出せる Tool の一覧（注文照会・キャンセル・住所変更・返品リクエスト・FAQ検索等）。各 Tool の input/output スキーマ、Shopify Admin GraphQL マッピング（各 `customer/*.html#impl` の「実装仕様」セクション参照）、副作用の有無、確認ステップ要否。

RAG 戦略

TODO: ナレッジ検索の戦略。クエリ拡張・ハイブリッド検索（BM25 + ベクトル）・リランキング・Top-K の決定方針。詳細パイプラインはナレッジパイプライン参照。

エスカレーション判断ロジック

TODO: いつ人間に渡すか。シナリオマトリクスの「対応不可」判定、信頼度しきい値、感情検出、明示要求の処理。

安全性・ガードレール

TODO: 越権操作の防止（払い戻し金額上限等）、プロンプトインジェクション対策、PII の扱い、ハルシネーション抑制方針。

品質・評価（Evals & QA）

TODO: AI 応答の品質を継続的に測る仕組み。ボリュームが増えたら独立ページ（`evals.html`）に切り出す前提。

評価セット — シナリオベース評価データの設計（マキシム CS 業務由来のリアルケース、エッジケース、敵対的入力）と版管理
品質指標 — 解決率 / 誤対応率 / エスカレ判定精度 / 平均応答時間 / 顧客満足度（CSAT 取得方式）
リグレッション — プロンプト/モデル/Tool 変更時の自動評価フロー、合否しきい値、CI 連携
本番モニタリング — 会話ログサンプリング、低信頼度応答の自動フラグ、人手レビュー導線
フィードバックループ — 事業者・顧客から得た指摘を評価セットに還流させる流れ

未決事項

TODO: シングルエージェント vs マルチエージェント、Function calling vs ReAct、メモリ層の持ち方等。