1. 取り込みソース
  2. パース・正規化
  3. チャンク化
  4. 埋め込み・インデックス
  5. 検索パイプライン
  6. 更新・無効化
  7. 未決事項
ナレッジソース(URL / PDF / 手入力)を取り込み、検索可能なチャンクに変換し、エージェントから引けるようにするまでの一連の処理を定義する。

ステータス: テンプレート(未着手) — セクション枠だけ用意。Phase 1 着手前に中身を埋める。

取り込みソース

TODO: Phase 1 で対応するソース種別(既存サイトクロール / PDF アップロード / Notion 風エディタでの手入力 / Shopify ストアフロントの自動取得)と、各ソースの入力経路。

パース・正規化

TODO: HTML/PDF/Markdown のパース方針、ノイズ除去(ヘッダー・フッター・ナビ)、テーブル・画像の扱い、最終的な内部表現(Markdown 統一 等)。

チャンク化

TODO: チャンクサイズ・オーバーラップ、見出し境界の尊重、メタデータ(出典URL / セクションパス / 更新日)の付与方針。

埋め込み・インデックス

TODO: 採用埋め込みモデル、ベクトルDB(候補: pgvector / Pinecone / Qdrant 等)、テナント分離方式、再埋め込みトリガー。

更新・無効化

TODO: ソース側変更検知(定期再クロール / Webhook / 手動)、差分更新ロジック、削除(トゥームストーン)の伝播、バージョン管理。

未決事項

TODO: ベクトルDB の選定、構造化ナレッジ(FAQ)と非構造化(ブログ等)の混在の扱い、多言語対応の優先度等。