ステータス: テンプレート(未着手) — セクション枠だけ用意。Phase 1 着手前に中身を埋める。
取り込みソース
TODO: Phase 1 で対応するソース種別(既存サイトクロール / PDF アップロード / Notion 風エディタでの手入力 / Shopify ストアフロントの自動取得)と、各ソースの入力経路。
パース・正規化
TODO: HTML/PDF/Markdown のパース方針、ノイズ除去(ヘッダー・フッター・ナビ)、テーブル・画像の扱い、最終的な内部表現(Markdown 統一 等)。
チャンク化
TODO: チャンクサイズ・オーバーラップ、見出し境界の尊重、メタデータ(出典URL / セクションパス / 更新日)の付与方針。
埋め込み・インデックス
TODO: 採用埋め込みモデル、ベクトルDB(候補: pgvector / Pinecone / Qdrant 等)、テナント分離方式、再埋め込みトリガー。
検索パイプライン
TODO: ハイブリッド検索(BM25 + ベクトル)、リランキング、Top-K、メタデータフィルタ。エージェントからの呼び出し契約は エージェント設計 § RAG 側に。
更新・無効化
TODO: ソース側変更検知(定期再クロール / Webhook / 手動)、差分更新ロジック、削除(トゥームストーン)の伝播、バージョン管理。
未決事項
TODO: ベクトルDB の選定、構造化ナレッジ(FAQ)と非構造化(ブログ等)の混在の扱い、多言語対応の優先度等。