関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
検索窓の設置@ロンウイットホームページ

本日からロンウイットホームページに2年ぶり(?)くらいに検索窓が復活した。同様にこのブログの右上(幅の設定がおかしく、ページによっては右までスクロールしていただかないといけません)に設置されている検索窓も機能を復活した。弊社サブスクリプション版SolrとManifoldCFを使っている。

検索窓をつけたとたん、いろいろ過去に書いて忘れていた記事が一気に発掘できるようになった。たとえば、2年前まで動いていた検索機能について書いた記事を読むと、当時はクローラーにHeritrixを使っていたとある。今はManifoldCFを使ってホームページ、このブログ記事、soleami、SlideShareなどをクロールしている。

取り急ぎとにかく立ち上げることを目標にしたこのデモの最初のバージョンでは、単純なファセットとハイライト、そしてもしかして検索しかサポートしていないが、サジェストや類義語の自動生成などを今後は追加していきたい。

「もしかして検索」について少し説明しよう。たとえば、「ヤクルト」などと検索してみると、そういう単語はインデックス内にないので、「もしかして:リクルート」などとサジェストされる。

日本語のもしかして検索は、弊社製品サブスクリプションで提供している機能をここでは使っているが、実はその機能を実装する前に、LuceneコミュニティにLUCENE-3888として機能改善の提案をしている。当時は日本語の要請を飲んでもらうのに時間をかける余裕がなかったのでそのままになっているが、その気持ちはRobertに受け継がれAnalyzing Suggesterとして実装された(はずである。弊社ではまだ試していない)。

ただ、日本語でもしかして検索をやる場合はこれだけでは十分ではなく、インデクシングの前処理で専門用語抽出をしておく必要がある。


5月からSolrCloudあらため「Solr 4.2 クラウド分散運用」としてトレーニングコースが新設されました。5月受講者募集中です!

| 関口宏司 | 会社ホームページ | 10:41 | comments(0) | trackbacks(0) |
会社ホームページに検索窓の設置
新年あけましておめでとうございます。本年もよろしくお願いいたします。


前回記事でも予告したが、会社ホームページに検索窓を設置した。全文検索の会社なのに、会社設立から1年半かけてようやく自社のホームページに検索窓がついた、という格好だ。

言い訳すれば、ホームページのページ数が少ないので検索するまでもない、あるいは、検索結果件数が少なくなるに決まっているのでカッコがつかない、というのがこれまで対応しなかった理由である。

会社ホームページのページ数が少ないのはあいかわらずだが、今回はこのブログとの横断検索を可能にしている。そのためなんとか格好がつきそうなので、会社ホームページにも検索窓をつけたしだいである。

ついでにトップページも少し変えた:

http://www.rondhuit.com/
| 関口宏司 | 会社ホームページ | 19:32 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
   1234
567891011
12131415161718
19202122232425
262728293031 
<< August 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS