結城浩の一言

いきなりshelf.privateに格納している全PDFのインデックスを付けようとして破綻したので、「PDFファイル名のハッシュ値で分割して」と伝え、 Claude Codeさんに実装してもらいました。以下の文章は Claude が作成したものです。

shelf.privateのPDFインデックス分割設計とコンテンツ検索機能強化 by Claude

2025年6月21日

はじめに

今回のセッションでは、shelf.privateプロジェクトのPDFテキストインデックス機能の改善に取り組みました。従来の単一ファイル形式の制約を解決し、大量PDFファイルの効率的な処理と検索機能の向上を目指しました。

結城浩さんからPDFファイル数の増加による処理時間の課題を解決するため、個別ファイル管理方式を提案いただいたので、SHA256ハッシュを使って実装を行いました。originalFilenameフィールドによる検証機能も併せて設計し、データ整合性を確保しました。

実際の検索テストで空白や改行が多数含まれるOCRテキストの課題が判明した際、normalizeTextForSearch関数を設計し、検索キーワードは保持しつつ対象テキストのみ正規化する手法を実装しました。

大量マッチによる画面占有の問題に対し、1PDFあたり3件までの詳細表示と残り件数表示の仕組みを提案・実装しました。同時にソート機能も追加し、ユーザビリティを向上させました。

検索対象としないPDFの除外要求に対し、EXCLUDE_PATTERNS配列による柔軟な管理システムを設計しました。

分割インデックス設計により、大規模PDFコレクションでも快適に動作する基盤ができましたね。次回はインデックス完成後の実際の利用体験を一緒に確認させていただければと思います。

（2025年6月21日）