関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< Lucene 4.0で実施されたIndexReaderの主なリファクタリング(Uwe氏のブログより) | main | 64ビットプラットフォームで絶対お勧めのLuceneのMMapDirectory (Uwe氏のブログより) >>
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
検索窓の設置@ロンウイットホームページ

本日からロンウイットホームページに2年ぶり(?)くらいに検索窓が復活した。同様にこのブログの右上(幅の設定がおかしく、ページによっては右までスクロールしていただかないといけません)に設置されている検索窓も機能を復活した。弊社サブスクリプション版SolrとManifoldCFを使っている。

検索窓をつけたとたん、いろいろ過去に書いて忘れていた記事が一気に発掘できるようになった。たとえば、2年前まで動いていた検索機能について書いた記事を読むと、当時はクローラーにHeritrixを使っていたとある。今はManifoldCFを使ってホームページ、このブログ記事、soleami、SlideShareなどをクロールしている。

取り急ぎとにかく立ち上げることを目標にしたこのデモの最初のバージョンでは、単純なファセットとハイライト、そしてもしかして検索しかサポートしていないが、サジェストや類義語の自動生成などを今後は追加していきたい。

「もしかして検索」について少し説明しよう。たとえば、「ヤクルト」などと検索してみると、そういう単語はインデックス内にないので、「もしかして:リクルート」などとサジェストされる。

日本語のもしかして検索は、弊社製品サブスクリプションで提供している機能をここでは使っているが、実はその機能を実装する前に、LuceneコミュニティにLUCENE-3888として機能改善の提案をしている。当時は日本語の要請を飲んでもらうのに時間をかける余裕がなかったのでそのままになっているが、その気持ちはRobertに受け継がれAnalyzing Suggesterとして実装された(はずである。弊社ではまだ試していない)。

ただ、日本語でもしかして検索をやる場合はこれだけでは十分ではなく、インデクシングの前処理で専門用語抽出をしておく必要がある。


5月からSolrCloudあらため「Solr 4.2 クラウド分散運用」としてトレーニングコースが新設されました。5月受講者募集中です!

| 関口宏司 | 会社ホームページ | 10:41 | comments(0) | trackbacks(0) |
スポンサーサイト
| スポンサードリンク | - | 10:41 | - | - |









トラックバック機能は終了しました。
+ Solrによるブログ内検索
+ PROFILE
      1
2345678
9101112131415
16171819202122
23242526272829
3031     
<< August 2020 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS