関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< Luceneでベイズ分類(experimental) | main | LuceneとSennaの比較:クエリー書式編(前編) >>
LuceneのHighlighterの重要性
みずほ情報総研吉川氏著の「サーチアーキテクチャ」を読んでいる(未読了)。

さすがにコンサルタントだけあって、検索に関するさまざまな項目について、独自の調査や他社の調査結果を引用しつつ、数字的裏づけを示して説得力のある説明や考察が随所になされている。

Luceneに関連するところで一例をあげると、Highlighterについての重要性の説明があり、感心したのでここでとりあげたい。


ちなみにLuceneのHighlighterは、検索結果一覧表示時に文書のタイトルなどと一緒に表示する要約文を生成するコンポーネントであり、検索キーワードを強調表示(ハイライト)した要約文を抽出できることからHighlighterと命名されている。Googleの検索結果表示を例として拝借すると、LuceneのHighlighterは下図の赤枠部分を表示できるコンポーネントである。

Googleの要約文表示

Highlighter周りのプログラミング方法について詳しくは、Lucene本の6.2を参照のこと。



「サーチアーキテクチャ」によれば、ユーザの検索行動に関する調査結果により、Highlighterの出力はどのように重要なのかが具体的に説明されている。同書の「5.1.2 説明文の表示技術」に、検索ユーザが検索結果文書をクリックするかどうかの判断基準として:


  • 検索結果文書をクリックする判断基準としては「タイトル」「説明文」「URL」の順に重視する

  • 検索結果文書をクリックしない判断基準としては「説明文」「タイトル」「URL」の順に重視する



という具合にHighlighterが出力する情報(=説明文)がユーザによりかなり重要視されていることが説明されている。

さらに読み進めていくと、説明文を表示する方法には次の3つの方法があるが、これも同様の調査結果により1.の方法が好まれている、としている:


  1. 文書の中に含まれる検索対象のキーワードが頻出する部分を表示する

  2. 文書の最初の部分から何文字という表示をする

  3. 全体を機械的に要約してその一部を表示する



LuceneのHighlighterはGoogleと同様に1.の方法で出力している。ちなみにNamazuは2.のようであり、文書の先頭に検索キーワードがたまたま含まれていた場合は強調表示ができるが、含まれていない場合は強調表示ができないようだ。

これまでは私の場合、Highlighterの必要性・重要性を認識していて顧客に説明したくても、Namazuとの比較でLuceneのHighlighterのよさを説明するのがせいぜいであった。

しかし「サーチアーキテクチャ」によって、Highlighterの必要性・重要性が数字的に裏付けられたといえるだろう。

(なお、NamazuとLuceneの比較ページは最近の弊社のホームページのリニューアルにより削除した(削除の理由はこちらを参照)が、オージャス社のこちらのページで今でも読むことができる)
| 関口宏司 | Luceneツール | 10:17 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/154
+ Solrによるブログ内検索
+ PROFILE
      1
2345678
9101112131415
16171819202122
23242526272829
30      
<< September 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS