関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
LinuxWorld Expo/Tokyo 2008 リクルート+ロンウイット事例発表報告(簡単に)
昨日LinuxWorld Expo/Tokyo 2008@東京ビッグサイトにてリクルートの中野さんとSolrの事例発表を行った。

これから外出なので、簡単に報告だけしておこうと思う。

リクルートにおける検索エンジンSolrの活用(A会場)

雨天にもかかわらず200名会場がほぼ満席になった。リクルートさんのネームバリューの威力以外の何物でもない。

思えば今から2年前、古巣のBEAでLuceneのセミナーを開催したときも、客席が満席になったのは豆蔵の長谷川さん(当時)のネームバリューであった(当時の模様はこちら)。

プレゼン資料はロンウイットのホームページからダウンロードできる:

http://www.rondhuit.com/download.html

.orgパビリオン

先週くらいにIDGの営業K氏から「.orgパビリオンの枠が空いているのでどうですか」と打診を受けた。「.orgパビリオンは最初の5分くらいしゃべってあとは近くの人と談笑している講師の人もいるので気軽ですよ」ということだったので私は空席の目立つ会場で近くの人と談笑している自分を想像しようとし、うまくイメージできないまま10分後には「やります」と返事をしていた。

結局ぎりぎりになって「さすがに何も準備なしではまずいだろう」とか「A会場でしゃべったことをもう一度話すのはまずいだろう」と思い、PPTファイルを用意したが、なんだかまとまりのない発表内容となってしまい、不完全燃焼だった。

名刺交換させていただいた方も、そうでなかった方も、ご連絡いただければ納得いくまで(私が、ですが)ご説明し直しますので、遠慮なくメールまたはお問い合わせください。

.orgパビリオン

NRI OpenStandiaブース

最後にNRIのOpenStandiaのブースに立ち寄った。

NRIには同社が発行しているメルマガにコラム執筆欄を頂戴しているため、ご挨拶(今までメールでしかやりとりがなかったため(!))するために立ち寄った。

そこではなんと「オープンソース焼きそば」なるカップめんを配布していた。

ダジャレを本当に形にしてしまう、NRI OpenStandiaグループメンバーのパワーに脱帽です。

オープンソース焼きそば
| 関口宏司 | Luceneセミナー | 10:44 | comments(1) | trackbacks(0) |
Hitsクラスが非推奨に
Hitsクラスの使用が非推奨になった。次バージョンのLucene 2.4ではdeprecatedとなり、Lucene 3.0から削除される予定である。Hitsの代わりにはTopDocCollectorとScoreDocの使用が推奨されている。使い方は、Luceneに付属のデモSearchFilesを見るとわかる:

https://issues.apache.org/jira/browse/LUCENE-1290
| 関口宏司 | Luceneクラス解説 | 09:39 | comments(0) | trackbacks(0) |
Solrで最近ホットな話題
Solrのメーリングリストで最近ホットな話題を2つあげるとすると、「ログ」と「Solr 1.3のリリース」だろう。

Solrロギング

http://www.nabble.com/-poll--Change-logging-to-SLF4J--td17084684.html

現在、Solrのログはjava.util.logging(JUL)が使われている。これをSLF4Jにしたい、という意見が割りとあるようだ。

私はこれまでSLF4Jをウォッチしてこなかったので自分の意見が今はいえない。あえていうなら、このような事態に陥らないように、フレームワーク独自のログレイヤを持つようにしてそこから間接的にJULなりSLF4Jなりを使うようにしておく(しかし、もしかしたらSLF4Jはこのような使い方は想定していない or まどろっこしい?)。それをせずにあえてJULを直接使っているところにSolr開発者のメッセージが込められているように私は感じる。

ログがやっかいなのは、SolrのWARはいろいろなサーブレットコンテナで動作し、サーブレットコンテナがJULやJakarta Commons Logging(JCL)やSLF4Jやらを使っていたりするので、なかなかひとつに決められない、というところがある。

また、SolrのJavaクライアントであるSolrjはJakarta Commons HttpClientを使っており、HttpClientがログシステムにJCLを使っていたりするので、Solrの中だけでも統一できているとはいいがたいところもあるのだ。

たぶん後発のSLF4Jは相当柔軟なんだろうと想像するが、ではSolrがそれを採用(依存)したとして、将来に渡って安泰か?というと(私はSLF4Jをよく知らないこともあり)疑問に感じるところだ。なのでフレームワークのログレイヤを持つか、そうしないならJULという現在Solrが採っているロギング戦略はそんなに悪くない選択なのではないかと思っている。

まあ、JULは運用性(ログファイル管理)は落ちるのかもしれない。

Solr 1.3のリリースはいつ?

http://www.nabble.com/Release-of-SOLR-1.3-td17336060.html
http://www.nabble.com/Release-date-of-SOLR-1.3-td17234870.html

Solr 1.2はちょうど今から約一年前にリリースされ、現在はSolr 1.3の開発が活発に行われているところだ。

いわゆる「安定版」のリリースから一年経ち、その間に相当イケテル機能がtrunkに追加されてきた。

これらの新機能はSolrユーザたちには広く知れ渡っており、Solr 1.1/1.2ユーザたちから「早く1.3を出してくれ!」という声が結構あるのだ。

Solr 1.3の新機能はLinuxWorld Expoでも簡単に紹介する予定だ:

http://www.idg.co.jp/expo/lw/lw2008/details/index.html#a25

ここまで「安定版」リリースが遅れている原因のひとつは、あるときから"MultiCore"と呼ばれる機能がSolrに取り込まれ、これがSolrの他の部分に少なからず影響してしまったから、と個人的には思っている。

MultiCore化のために他のコンポーネントが影響を受け、実装に時間がかかっている間に、Solr自身は非常に柔軟なフレームワーク(このあたりもLinuxWorld Expoで紹介予定)のために、一般ユーザからの「プラガブル」コンポーネントがどんどん提案されてきてそれがリリース遅れに拍車をかけている、という状況になっているように見える。

・・・で、結局いつなの?という問いには「ん〜、年内?」というアバウトな回答になってしまう。

ちなみに、Solr 1.3にできたら入れたいと考えられている項目リストはこちら
| 関口宏司 | Luceneリリース | 12:42 | comments(0) | trackbacks(0) |
(メモ)NutchとHeritrix
WebクローラーとしてのNutchとHeritrixの比較

http://tech.groups.yahoo.com/group/archive-crawler/message/5099
| 関口宏司 | クローラー | ロボット | スパイダー | 15:04 | comments(0) | trackbacks(0) |
(メモ)solr-rubyの単体テスト
solr-ruby(SolrのRubyクライアントライブラリ)の超簡単単体テスト方法(自分用のメモ)。



$ cd $SOLR_HOME/client/ruby/solr-ruby/lib
$ ruby ../test/unit/standard_request_test.rb
Started
.........
Finished in 0.005 seconds.

9 tests, 51 assertions, 0 failures, 0 errors
$


| 関口宏司 | solr-ruby | 12:59 | comments(0) | trackbacks(0) |
ホワイトペーパー「LudiaとSolrにおけるファセットカウント取得と絞り込み検索」の公開
ホワイトペーパー「LudiaとSolrにおけるファセットカウント取得と絞り込み検索」を公開した。

http://www.rondhuit.com/download.html
| 関口宏司 | Luceneパフォーマンス | 10:49 | comments(2) | trackbacks(0) |
インデックスファイルフォーマットの後方互換性のテストコード
以前「Luceneバージョン間の互換性について」の記事で、Luceneの新しいバージョンは古いバージョンのインデックスをどのくらいさかのぼって読めるか、ということについて説明したが、その後方互換性をテストするJUnitのクラスが存在する。
それはTestBackwordsCompatibilityという名前でsrc/test/org/apache/lucene/index/ディレクトリに存在する。

どのようにテストをしているかというと、そのテストクラスと同じディレクトリに、Luceneの古いバージョンで作成されたインデックスのZIPファイルが次のようにあり:



$ ls *.zip
index.19.cfs.zip index.20.nocfs.zip index.22.cfs.zip index.23.nocfs.zip
index.19.nocfs.zip index.21.cfs.zip index.22.nocfs.zip
index.20.cfs.zip index.21.nocfs.zip index.23.cfs.zip

$



テスト実行時はそのZIPファイルを解凍して最新のLuceneで検索したり、新しいドキュメントを追加したり、追加して検索したり、・・・といったことを実際に行ってテストしている。面白い。
| 関口宏司 | Luceneクラス解説 | 02:42 | comments(0) | trackbacks(0) |
Solrコミッターに・・・
なりました。

http://lucene.apache.org/solr/who.html
| 関口宏司 | その他(分類不能) | 09:43 | comments(0) | trackbacks(0) |
Lucene 2.3.2リリース間近・・・
Lucene 2.3.1のバグフィックス版のLucene 2.3.2のリリースの投票が開始してリリース間近か・・・と見ていたらApacheのSubversionが調子が悪くなってコミットできない状態となっており、投票も進んでいない様子。

Lucene 2.3.2はインデクシング系のバグフィックスに加え、どうやら「フレーズのハイライトがうまくいかない問題」のバグフィックス(これは仕様であり不具合ではないので「新機能」である、という声もある)も含まれるようだ。これは恩恵を受ける人が多いのでは?

https://issues.apache.org/jira/browse/LUCENE-794
| 関口宏司 | Luceneリリース | 00:07 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
    123
45678910
11121314151617
18192021222324
25262728293031
<< May 2008 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS