関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
2位じゃダメなんでしょうか?
「1位にしなければいけない理由はなんでしょうか。2位じゃダメなんでしょうか?」

「・・・・」

これは事業仕分け作業においてスーパーコンピューターの処理能力について激しく議論をする蓮舫参議院議員と文科省官僚とのやりとり・・・ではない。私と顧客とのやりとりの一幕である。もちろん、1位2位というのは検索結果ランキングのことだ。検索結果ランキングのカスタマイズは顧客の要望がもっとも集中するものの一つである。特定のページのランキングを意図的に1位にすることは簡単だ。しかし、本当に1位にしたいのか、その理由は、と聞いていくと案外はっきりした理由は出てこないものである。そのようなときは簡単に1位にしたりせず、Lucene/Solrのデフォルトにゆだねてしばらく運用した方がよい。蓮舫議員も後にテレビのインタビューに応えて「あのように聞けば1位にしなければいけない理由が語られると思った」と述べている。私も同感である。

しかし先日、ついに堂々と要求を述べる顧客に会った。

「1位じゃなきゃダメなんです」

理由はよくわからなかった。しかし毅然とした態度は私に十分訴えるものがあった。1位にする必要があった。


単純にboostをあげると常に上位表示することができるが、インデックスにboostを記録する必要があるため、変更処理が重くなる。そしてその用が済んだとき(キャンペーンの終了など)、boostをリセットするにも重い処理をしなければならない。そんなときは、ある検索語が使われたときにだけ上位表示させることが可能なSolrの機能を検討しよう。それはQueryElevationComponentである。面白いのは、その検索語は上位表示させたいページの文書に必ずしも含まれていなくてもよいことである。インデックスを変更することなく、軽快に上位表示/リセットを実行することができる。



トレーニングコース「速習 Solr 1.4」は12月16日(水)いよいよ千秋楽、12月2日(水)まで受講者募集中!
| 関口宏司 | Solr | 22:38 | comments(0) | trackbacks(0) |
Lucene 3.0.0のリリース
本日Java 5の各種機能を使ったLucene 3.0.0がリリースされた。Lucene 2.9でdeprecatedとなったAPIは3.0では削除されたので、deprecated APIを使っていたアプリケーションは、代替のAPIを使わなければコンパイルできない。
| 関口宏司 | Luceneリリース | 20:13 | comments(0) | trackbacks(0) |
SSDを効果的に使い検索を高速化する方法
http://old.nabble.com/Distributing-index-over-N-disks-td26504452.html

Lucene/Solrのインデックスが完成されたもので変更がない(追加/更新/削除がなく、マージもされない)ならば、SSDを用意して.frqファイルと.prxファイルを配置し、残りのインデックスファイルはHDDに配置する。そしてHDDのインデックスディレクトリにはSSDへのシンボリックリンクを配置する。

.frqファイルには各TermのDocumentごとの出現数が記録されている。.prxファイルにはさらにその詳細としてその出現毎のフィールドにおけるTermの位置情報が記録されている。いずれもomitTfがfalseのときに.fdtファイルに次いでサイズが大きく、また検索実行時に頻繁にアクセスされるため、これらのファイルを選択的にSSDに配置することで検索コストパフォーマンスを最大化できると期待できる。
| 関口宏司 | Luceneインデックス | 09:56 | comments(0) | trackbacks(0) |
オーバーライド可能になったSimilarityのnorm値計算メソッド(3.1)
https://issues.apache.org/jira/browse/LUCENE-1260

アプリケーションによってはフィールドのnorm値計算(1バイトへのエンコード、1バイトからのデコード)をコントロールしたいという要望に応え、Similarityのstaticメソッドがdepracatedとなり、同じ機能を持つインスタンスメソッドが追加された
| 関口宏司 | Luceneクラス解説 | 08:26 | comments(0) | trackbacks(0) |
(メモ)Crawler Commons Project
http://code.google.com/p/crawler-commons/

バックグラウンド
http://wiki.apache.org/nutch/ApacheConUs2009MeetUp
| 関口宏司 | クローラー | ロボット | スパイダー | 06:49 | comments(0) | trackbacks(0) |
Solr マルチコア コア多すぎ
38,000個のコアを定義したSolrの起動に25分!

https://issues.apache.org/jira/browse/SOLR-1575
| 関口宏司 | Solr | 15:22 | comments(0) | trackbacks(0) |
インデックスの互換性(2.9〜3.0〜4.9)
Lucene 3.0で作成したインデックスはLucene 2.9では読めない。なぜならLucene 2.9でdeprecatedとなったStore.COMPRESSがLucene 3.0では削除され、インデックスのバージョン番号が上がったためである。

従来通りその逆はOKであり、Lucene 2.Xで作成したインデックスはLucene 3.0で検索に使うことができる。また、Lucene 3.0でインデックスを更新すると、新しいセグメントファイルは新フォーマットで作成される。

Lucene 3.0で作成したインデックスは、Lucene 4.9まで使える予定である。Lucene 2.9のインデックスはLucene 4.0になるとサポートされなくなる。

2.9でdeprecatedとなったStore.COMPRESSは、これまで次のように書いていたプログラムを:

doc.add( new Field( "body", bodyString, Store.COMPRESS, Index.ANALYZED ) );


次のようにCompressionToolsを使って書き換えればよい(2行必要になる):

doc.add( new Field( "body", bodyString, Store.NO, Index.ANALYZED ) );
doc.add( new Field( "body", CompressionTools.compressString(bodyString), Store.YES ) );
| 関口宏司 | Luceneインデックス | 09:29 | comments(0) | trackbacks(0) |
着々とJava 5対応中(3.0)
Lucene 3.0はJava 5(Java 1.5)に対応したAPIへの変更を着々と進行中(ほぼ完了):

| 関口宏司 | Luceneリリース | 08:06 | comments(0) | trackbacks(0) |
(メモ)Hadoop 0.20 release tarballのビルド方法
プロパティjava5.homeにJava 5のホームディレクトリ、プロパティforrest.homeにApache Forrestのインストールディレクトリの指定がそれぞれ必要。

$ java -version
java version "1.6.0_15"
Java(TM) SE Runtime Environment (build 1.6.0_15-b03-226)
Java HotSpot(TM) 64-Bit Server VM (build 14.1-b02-92, mixed mode)
$ pwd
/Users/koji/Project/hadoop/common/hadoop
$ ant tar -Djava5.home=/System/Library/Frameworks/JavaVM.framework/Versions/1.5.0/Home -Dforrest.home=/Users/koji/dev/apache-forrest-0.8
  :
BUILD SUCCESSFUL
Total time: 7 minutes 38 seconds
$ ls build
ant				hadoop-0.20.2-dev-examples.jar
c++				hadoop-0.20.2-dev-test.jar
classes				hadoop-0.20.2-dev-tools.jar
contrib				hadoop-0.20.2-dev.tar.gz
docs				ivy
examples			src
hadoop-0.20.2-dev		test
hadoop-0.20.2-dev-ant.jar	tools
hadoop-0.20.2-dev-core.jar	webapps
| 関口宏司 | Hadoop | 00:30 | comments(1) | trackbacks(0) |
ホワイトペーパー「Solr 1.4の新機能」
Solr 1.4がまもなく公開される。そこで「Solr 1.4の新機能」を紹介したホワイトペーパーを用意した:

http://www.rondhuit.com/download.html

嗚呼、「今週中には公開されます」「次回お会いしたときには公開されていますよ」と何度顧客に堂々と宣言し、嘘をついてしまったことか。結果的にSolr 1.3の公開から1年以上も経ってしまった。Solr 1.3のときもやはり「出る出る」と言いながら実際にリリースされるまでに半年ぐらい経ってしまっていた。

Solr 1.3公開後にコミッター内では「リリースは6ヶ月毎にはやろうよ」「みんなでやろうぜ(TM by 谷垣禎一)」と盛り上がったのは何だったのか、まあいいけど。


Solr 1.4、お待たせしました、間もなく公開です。


受講者アンケートで大好評の「速習 Solr 1.4」受講者募集中!

| 関口宏司 | Solr | 10:40 | comments(1) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
1234567
891011121314
15161718192021
22232425262728
2930     
<< November 2009 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS