関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< LinuxWorld Expo/Tokyo 2008 リクルート+ロンウイット事例発表報告(簡単に) | main | 第1回 Rails開発者向け全文検索エンジンSolrの無料セミナー開催 >>
LUCENE-794のデモへの適用
現在開発中のSolr 1.3のLuceneライブラリがアップデートされ、LUCENE-794の修正が取り込まれた:

https://issues.apache.org/jira/browse/LUCENE-794

LUCENE-794はフレーズのハイライトを正確に行うという新機能(フレーズのハイライトが正確に行えなかったこれまでのHighlighterは、それは「不具合」ではなく「仕様」という認識である)の追加である。「新機能」なので従来のQueryScorerを使うと従来のままの動作となる。つまりフレーズを構成する単語が独立していてもハイライトの対象となってしまう。

LUCENE-794で追加されたSpanScorerを使用するとフレーズが対象の場合はフレーズをハイライトし、フレーズを構成している単語が単独のものはハイライト対象からはずれるようになる(ただし、ハイライトの単位は単語単位となる。この意味は下記にあるとおりデモで実際にフレーズを検索してみて、検索結果画面HTMLの「ソースの表示」をしてみるとわかるのでやってみよう)。

このブログを検索するデモに早速この機能を取り込んでみた。

「検索性能」という検索語(フレーズ)で検索すると、これまでは次のように「検索」という独立した単語でもハイライトされてしまっていた:

before LUCENE-794

しかし最新のSolr trunkを適用した現在は、次のように「検索」という独立した単語はハイライトされなくなる:

after LUCENE-794

もっとも、この例ではAnalyzerに形態素解析を使用し、検索フレーズも「お行儀がよい」ためにあまり改善した印象を受けないかもしれない(Googleでも最初の図のようなハイライトが実際に行われるし)。AnalyzerにN-gramを使用したり、フレーズが細かい単語から構成される場合は、この改善のありがたみがよくわかる。
| 関口宏司 | Luceneデモ | 19:07 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/217
+ Solrによるブログ内検索
+ PROFILE
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS