ナレッジパイプライン

ナレッジソース（URL / PDF / 手入力）を取り込み、検索可能なチャンクに変換し、エージェントから引けるようにするまでの一連の処理を定義する。

ステータス: テンプレート（未着手） — セクション枠だけ用意。Phase 1 着手前に中身を埋める。

取り込みソース

TODO: Phase 1 で対応するソース種別（既存サイトクロール / PDF アップロード / Notion 風エディタでの手入力 / Shopify ストアフロントの自動取得）と、各ソースの入力経路。

TODO: HTML/PDF/Markdown のパース方針、ノイズ除去（ヘッダー・フッター・ナビ）、テーブル・画像の扱い、最終的な内部表現（Markdown 統一等）。

TODO: チャンクサイズ・オーバーラップ、見出し境界の尊重、メタデータ（出典URL / セクションパス / 更新日）の付与方針。

TODO: 採用埋め込みモデル、ベクトルDB（候補: pgvector / Pinecone / Qdrant 等）、テナント分離方式、再埋め込みトリガー。

TODO: ハイブリッド検索（BM25 + ベクトル）、リランキング、Top-K、メタデータフィルタ。エージェントからの呼び出し契約はエージェント設計 § RAG 側に。

TODO: ソース側変更検知（定期再クロール / Webhook / 手動）、差分更新ロジック、削除（トゥームストーン）の伝播、バージョン管理。

TODO: ベクトルDB の選定、構造化ナレッジ（FAQ）と非構造化（ブログ等）の混在の扱い、多言語対応の優先度等。