関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
Luceneの歴史を振り返り、勝手に懐かしむ
このあいだSolr勉強会でLucene/Solr 3.1の話をしてきたばかりだが、来週にはもう3.2が出ようとしている。ところで今回のリリースのタイミングで、CHANGES.txtの過去にさかのぼってリリースの日付がすべて削除されるというコミットがあった。もちろんソースコード管理(Subversion)を見れば削除前の日付を参照できるが、すべてのリリース時点の日付が必ずしも入っていないのがどうやら気に入らなかったようだが、なにもあるものについて消さなくたっていいじゃんかと思いつつ、消される前のCHANGES.txtを見ていたらなんだか懐かしい感じがして(といっても私は1.4からのユーザーだが)、過去のリリースをピックアップして振り返るのも楽しいかも。ということでブログを書く。

バージョンリリース日主な項目
0.012000/03/30First open source release.
0.042000/04/19Lucene now includes a grammar-based tokenizer, StandardTokenizer.
他に目立った機能強化がないのか、このあと20行弱StandardTokenizerの説明が続く
1.02000/10/04serious bug fix and performance optimization
1.01b2001/07/02last Sourceforge release
1.2 RC12001/10/02first Apache release
  • packages renamed from com.lucene to org.apache.lucene
  • license switched from LGPL to Apache
  • ant-only build -- no more makefiles
  • addition of lock files--now fully thread & process safe
1.2 RC22001/10/19
  • added sources to distribution
  • disabled lock files for JDK 1.1, since they rely on a feature added in JDK 1.2
1.2 RC3?Removed JavaCC from source distribution for copyright reasons.
1.2 RC4?Upgraded to JUnit 3.7.
1.2 RC5?bug fixes and test improvements
1.2 RC6?bug fix
1.3 RC1?new methods Document.setBoost(float), Field.setBoost(float) and Token.setPositionIncrement()
1.3 RC2?new method IndexReader.undeleteAll()
1.3 RC3?bug fix
1.3 final?Fix StandardTokenizer's handling of CJK characters
1.4 RC1?Added support for sorting
1.4 RC2?bug fix
1.4 RC3?Added a new SortField type for custom comparators
1.4 final?Added "an" to the list of stop words in StopAnalyzer
1.4.1?bug fix
1.4.2?bug fix etc.
1.4.3?bug fix
1.9 RC1?
  • Added support for stored compressed fields
  • Added support for binary stored fields
  • Added support for position and offset information in term vectors
1.9 final?bug fixes and optimizations
1.9.1?bug fix
2.0.02006/05/26Removed 2GB file size limitations for RAMDirectory
2.1.02007/02/14Added NativeFSLockFactory, ndexWriter.addIndexesNoOptimize(), NGramTokenizer and EdgeNGramTokenizer
2.2.02007/06/19SinkTokenizer and TeeTokenFilter
2.3.02008/01/21Added IndexWriter.setRAMBufferSizeMB(), IndexReader.reopen()
2.3.12008/02/22bug fixes
2.4.02008/10/06Added Fieldable.omitTf(). Rename Field.Index options to be more accurate
| 関口宏司 | Luceneリリース | 00:41 | comments(0) | trackbacks(0) |
Lucene/Solr 3.1 リリース
LuceneとSolrのマージ後初めてのリリースとなる3.1が公開された:

http://lucene.apache.org/

新機能については先日ホワイトペーパーというかたちで公開したので、ここでは省略する。

あわせて、Solrのトレーニングコースも3.1に対応して4月開催分の募集を開始している。

Solr 3.1 トレーニングコース(基礎、応用、DIH)
| 関口宏司 | Luceneリリース | 00:20 | comments(3) | trackbacks(0) |
ホワイトペーパー「Lucene/Solr 3.1の新機能」公開
ホワイトペーパー「Lucene/Solr 3.1の新機能」を公開した。

http://www.rondhuit.com/download.html
| 関口宏司 | Luceneリリース | 07:42 | comments(0) | trackbacks(0) |
Luceneの今後のリリースとインデックスフォーマットの関係
[DISCUSSION] Trunk and Stable release strategy

「もし4.0がすべての3.xインデックスを読めると決めたら、4.0がリリースされたときにまだリリースされていなかった3.xの将来バージョンのインデックスは4.0でどのようにサポートできるのだろう」・・・というメーリングリストに流れた話。これは、LuceneとSolrがマージされる前、まだLuceneのメジャーバージョンが同時に2つメンテナンスされるようなことがなかった時代には起こらなかった、興味深い疑問である。皆開発に夢中になりすぎて、こんな簡単な問題に今まで気がつかなかったのだろうか(私も含めて)。なにはともあれ、リリース前に気がついてよかったね。

メールのタイトルには[DISCUSSION]とあるが、メール送信者の最初の提案が議論のないまま受け入れられ、次のようになる模様:

  • 3.xバージョンは現trunk(4.0)が安定するまでリリースを続ける。
  • trunkが安定したら、4.0としてリリースする。3.xはバグフィックスに専念する。3.xはインデックスフォーマットの変更がないリリースもあり得る。
  • 新しいtrunkは5.0向けとして開発を続ける。
| 関口宏司 | Luceneリリース | 01:18 | comments(0) | trackbacks(0) |
Lucene 2.9.4/3.0.3 リリース間近 〜 現在投票中
あれから1ヶ月も経ってしまったが、現在投票中である。Solr 1.4に関しては未定だが(Solrコミッターの関心外のよう)、以下のメールに「Lucene 2.9.4をSolr 1.4.1で使うためのパッチ」が添付されているので、必要な方は使ってみるといいだろう: http://mail-archives.apache.org/mod_mbox/lucene-general/201011.mbox/%3C007c01cb8f44$9f23e930$dd6bbb90$@thetaphi.de%3E
| 関口宏司 | Luceneリリース | 09:01 | comments(0) | trackbacks(0) |
Lucene 2.9.4/3.0.3 リリース間近
ただいまバグフィックスリリースであるLucene 2.9.4と3.0.3を準備中である。longのNumericRangeQueryがLong.MAX_VALUE近辺で正しく動作しない不具合や、FVHの不具合が多数直されている。また例外的に入れられた改善として、2.9.4のLuceneが3.0のインデックスを読めるようにするという機能も含まれる。これにより、Lucene 2.9から3.0へのマイグレーションが容易になる。

一般的には古いバージョンのLuceneは新しいバージョンのLuceneのインデックスは読めないが、Lucene 2.9と3.0は、3.0にて2.9でのdeprecated APIの廃止とJava 5対応を施したという違いだけである。したがって、インデックスフォーマットに違いはないはずであるが、2.9でdeprecatedになったフィールド圧縮の機能が3.0ではなくなった(圧縮したい場合はクライアント側でLuceneにて用意されている圧縮ツールを使って行う)ため、若干の違いがある。このちょっとした違いを吸収して読めるようにしようということだ。
| 関口宏司 | Luceneリリース | 10:04 | comments(0) | trackbacks(0) |
Solr 1.4.1 リリース / Apache Forrest (メモ)
本日Solr 1.4.1(1.4.0のバグフィックス)がリリースされた。

それに伴い、SolrのWebサイトが更新される(What's Newなど)のだが、WebサイトはApache Forrestを使ってビルドしている。ここでリリースマネージャのMark Miller氏がビルドにはまった(?)のでメモ。

ビルド時にエラーになってしまうという問題だが、原因はJava 6を使っていたから。ForrestはSunのJava 5でなければいけない。理由は、Forrestは内部でSunのクラス(sun.xxx.yyy.Zzz)を使っていてそれがJava 5で提供されているものだから。
| 関口宏司 | Luceneリリース | 23:48 | comments(6) | trackbacks(0) |
まもなくバグフィックスリリース Solr 1.4.1
これまで前例のなかった、Solr 1.4のバグフィックスリリース Solr 1.4.1 がまもなくリリースされる。

Luceneは現在準備中のLucene 2.9.3を同梱する予定。写真はUwe氏によるアナログ式branch_3x vs Lucene 2.9バグ差分チェックシート・・・

チェックシート
| 関口宏司 | Luceneリリース | 22:15 | comments(0) | trackbacks(0) |
Lucene 3.0.0のリリース
本日Java 5の各種機能を使ったLucene 3.0.0がリリースされた。Lucene 2.9でdeprecatedとなったAPIは3.0では削除されたので、deprecated APIを使っていたアプリケーションは、代替のAPIを使わなければコンパイルできない。
| 関口宏司 | Luceneリリース | 20:13 | comments(0) | trackbacks(0) |
着々とJava 5対応中(3.0)
Lucene 3.0はJava 5(Java 1.5)に対応したAPIへの変更を着々と進行中(ほぼ完了):

| 関口宏司 | Luceneリリース | 08:06 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
      1
2345678
9101112131415
16171819202122
23242526272829
3031     
<< December 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS