関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
ホワイトペーパー「Excelで学ぶ!Luceneのスコア計算」公開
ホワイトペーパー「Excelで学ぶ!Luceneのスコア計算」を公開した。

http://www.rondhuit.com/download.html
| 関口宏司 | Luceneスコアリング | 09:18 | comments(0) | trackbacks(0) |
ホワイトペーパー「Lucene/Solr 3.1の新機能」公開
ホワイトペーパー「Lucene/Solr 3.1の新機能」を公開した。

http://www.rondhuit.com/download.html
| 関口宏司 | Luceneリリース | 07:42 | comments(0) | trackbacks(0) |
GC改善に役立つ新しいJVMパラメータ
GC問題改善に役立つJDK 1.6.0_24の新しいJVMパラメータに関するメールがSolrのメーリングリストに投稿されたので紹介しよう:

Helpful new JVM parameters

アプリケーションの規模
1300万件レコード、非分散検索、相当数のstoredフィールド
64GBのハードウェアメモリに22GBのヒープ領域、1.2GBのnewSize/maxNewSize、CMS/ParNew

利用しているSolrの機能
少なくとも1ダース以上のフィールドに対するソートと20〜30フィールドに対するファセット

遭遇した問題
プロモーションの失敗によるフルGCの頻発。大きなオブジェクトが生成され、OLD領域をフラグメントさせたようである。

問題の改善に役立った新JVMパラメータ

OLD領域にプロモートされるオブジェクトの数を大幅に削減し、フラグメントとCMSの回数と時間を減少させたパラメータ
  • -XX:+UseStringCache
  • -XX:+OptimizeStringConcat
  • -XX:+UseCompressedStrings

64ビットJVMにおける圧縮ポインタを利用し、new GC (ParNew)時間を削減したパラメータ
  • -XX:+UseCompressedOops

CMS GCが発動されるtenured領域の占有率。ドキュメント上は68%とあるが、われわれの見立てだと90%に近い感覚があり、これでは遅すぎる
  • -XX:CMSInitiatingOccupancyFraction=75

メジャーGCのRemarkフェイズをマルチスレッドで実行
  • -XX:+CMSParallelRemarkEnabled
| 関口宏司 | Lucene開発環境 | 09:59 | comments(1) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< March 2011 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS