2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2009.08.23 Sunday
Highlighter関連の変更(2.9)
FastVectorHighlighterという、名前からしていかにも速そうなHighlighterがLucene 2.9(9月上旬頃リリース予定)に含まれることになった。これは当初、Highlighter2という名前で開発されていたもので、コミット間際になって「名前がHighlighter2じゃまずいだろう」ということで、名称変更されたものである:
https://issues.apache.org/jira/browse/LUCENE-1522 以下のような特徴がある:
従来のHighlighterの方では、単語単位のハイライトからフレーズ単位のハイライト(紛らわしいが、フレーズ単位のタグ付け、ではない)にデフォルト動作が変更になるという次のJIRAがコミットされている: https://issues.apache.org/jira/browse/LUCENE-1685 これによると、従来のHighlighterは次のように変更になった:
2009.08.09 Sunday
高速String.intern()(2.9)
Luceneライブラリで活用されているString.intern()の高速化APIが追加された:
https://issues.apache.org/jira/browse/LUCENE-1607 これは、intern()されたStringのキャッシュに対し、参照時はロックしないようにして高速化を図るものである。したがって、intern()される文字列が同じものが多い場合に効果的である。そうでない場合は、初めてintern()される文字列はString.intern()が呼ばれるためかえって遅くなる。Solrにも早速Lucene版のintern()を使うように更新が行われた: https://issues.apache.org/jira/browse/SOLR-1338 2009.08.06 Thursday
autocommitの設定値でインデクシング時間に大きな差
contrib/benchmarkを使って2.4と2.9のインデックス作成時間を比較していたMark Miller氏は、2.9で大幅な速度向上を発見。2.9は3分少々の処理時間のところ、2.4は20分以上もかかっている。原因を追及していくと、Lucene 2.4と2.9のautocommitのデフォルト設定値の違いであることが判明した。
2.9はautocommit=falseがデフォルトであり、2.4はtrueである。2.4でもfalseにすると、2.9と近いプロファイルを示し、処理時間も4分程度に縮まった: http://www.nabble.com/benchmark%3A-lucene24-vs-lucene29-td24835195.html 2009.08.03 Monday
ComplexPhraseQueryParser (2.9)
Lucene 2.9にフレーズ内のワイルドカード検索やあいまい検索を可能にするクエリパーサ、ComplexPhraseQueryParserが追加された。
サンプルコード: public class TestLucene1486 { public static void main(String[] args) throws Exception { QueryParser parser = new ComplexPhraseQueryParser( "f", new WhitespaceAnalyzer() ); printQuery( parser, "¥"j* smyth~¥"" ); printQuery( parser, "¥"(jo* -john) smith¥"" ); printQuery( parser, "¥"jo* smith¥"~2" ); } static void printQuery( QueryParser parser, String query ) throws Exception { Query q = parser.parse( query ); System.out.println( query + " = " + q.toString() ); } } 実行結果を見てもなにがなんだかわからないので、println()の行でブレークポイントを置き、Queryオブジェクトがどうなっているかを見るとよい。 https://issues.apache.org/jira/browse/LUCENE-1486 |
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |