1. 採用モデル
  2. システムプロンプト構成
  3. Tool 定義
  4. RAG 戦略
  5. エスカレーション判断ロジック
  6. 安全性・ガードレール
  7. 品質・評価(Evals & QA)
  8. 未決事項
プロダクトのコアである LLM エージェントの設計を集約。モデル選定・システムプロンプト・Tool 定義・RAG 戦略・エスカレーション判断ロジック。

ステータス: テンプレート(未着手) — セクション枠だけ用意。Phase 1 着手前に中身を埋める。

採用モデル

TODO: 採用 LLM(Claude / GPT / 国内モデル)と選定理由、コスト見積もり、フォールバック戦略。

システムプロンプト構成

TODO: 全体構造(ロール定義 / ショップ固有設定 / ナレッジ参照ルール / Tool 使用ガイド / 応答フォーマット)。テンプレ化とショップ別カスタマイズの境界を明示。

Tool 定義

TODO: エージェントが呼び出せる Tool の一覧(注文照会・キャンセル・住所変更・返品リクエスト・FAQ検索 等)。各 Tool の input/output スキーマ、Shopify Admin GraphQL マッピング(各 `customer/*.html#impl` の「実装仕様」セクション参照)、副作用の有無、確認ステップ要否。

RAG 戦略

TODO: ナレッジ検索の戦略。クエリ拡張・ハイブリッド検索(BM25 + ベクトル)・リランキング・Top-K の決定方針。詳細パイプラインは ナレッジパイプライン 参照。

エスカレーション判断ロジック

TODO: いつ人間に渡すか。シナリオマトリクスの「対応不可」判定、信頼度しきい値、感情検出、明示要求の処理。

安全性・ガードレール

TODO: 越権操作の防止(払い戻し金額上限等)、プロンプトインジェクション対策、PII の扱い、ハルシネーション抑制方針。

品質・評価(Evals & QA)

TODO: AI 応答の品質を継続的に測る仕組み。ボリュームが増えたら独立ページ(`evals.html`)に切り出す前提。

  • 評価セット — シナリオベース評価データの設計(マキシム CS 業務由来のリアルケース、エッジケース、敵対的入力)と版管理
  • 品質指標 — 解決率 / 誤対応率 / エスカレ判定精度 / 平均応答時間 / 顧客満足度(CSAT 取得方式)
  • リグレッション — プロンプト/モデル/Tool 変更時の自動評価フロー、合否しきい値、CI 連携
  • 本番モニタリング — 会話ログサンプリング、低信頼度応答の自動フラグ、人手レビュー導線
  • フィードバックループ — 事業者・顧客から得た指摘を評価セットに還流させる流れ

未決事項

TODO: シングルエージェント vs マルチエージェント、Function calling vs ReAct、メモリ層の持ち方等。