Top  たわごと:INDEX back


2007年11月29日(木)
 
全文検索を追加
 
 観察標本が増えてくると、過去のデータから目的の項目を簡単には見つけられなくなる。そういう需要に対応できるためにはサイト内を検索できるシステムがあればよい。そこで、「こけ雑記」のすべての文章を対象とした日本語検索システムを導入した。
 導入したシステムは Namazu といって、多様な検索方法や正規表現にも対応したものだが、困った問題も生じることになった。コケの世界では、「凵vとか「芒」といった文字が頻繁に使われる。google等の検索エンジンは文字コードUTF-16に対応しているので、これらの文字でも検索をかけることができる。しかし、これらの文字は、ネット上では原則として使用御法度とされる文字だ。Namazu は原則としてShift_JISで動くので、これらの文字は標準では検索に使えない。解決策はあるのだろうが残念ながらよくわからない。