関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< インデックスディレクトリ中の不要ファイルを削除するメソッドの追加(3.1) | main | 書籍「Apache Solr入門」 >>
1セグメント内のユニークターム数の上限の拡張(2.9.2)
これまで1セグメント内のユニークターム数は約21億個であったが、Lucene 2.9.2から約2740億件に拡張されることになった:

https://issues.apache.org/jira/browse/LUCENE-2257

インデックスファイルフォーマットにはこのような制限はないが、検索時に部分的にintでシーク位置の計算結果を保持している部分があったためintの上限の約21億が上限となっていたものである。これをlongで受け取るように変更された。longで受け取るようになったのに上限が900京でないのは、tiiのシーク位置を保持しているのはintのままで、そこからtisの位置を求めるのに128を掛けるのだが、その計算結果を受け取る部分がlongに拡張されたということであるため、上限が(intの上限)x128 = 約2740億件、となっている。

これまでこの制限に当たっていたサイトはセグメントをマージしないようにするくらいしか方法がなかったが、これでだいぶ運用が楽になるだろう。
| 関口宏司 | Luceneインデックス | 18:11 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/373
+ Solrによるブログ内検索
+ PROFILE
     12
3456789
10111213141516
17181920212223
24252627282930
<< September 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS