2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2009.11.28 Saturday
2位じゃダメなんでしょうか?
「1位にしなければいけない理由はなんでしょうか。2位じゃダメなんでしょうか?」
「・・・・」 これは事業仕分け作業においてスーパーコンピューターの処理能力について激しく議論をする蓮舫参議院議員と文科省官僚とのやりとり・・・ではない。私と顧客とのやりとりの一幕である。もちろん、1位2位というのは検索結果ランキングのことだ。検索結果ランキングのカスタマイズは顧客の要望がもっとも集中するものの一つである。特定のページのランキングを意図的に1位にすることは簡単だ。しかし、本当に1位にしたいのか、その理由は、と聞いていくと案外はっきりした理由は出てこないものである。そのようなときは簡単に1位にしたりせず、Lucene/Solrのデフォルトにゆだねてしばらく運用した方がよい。蓮舫議員も後にテレビのインタビューに応えて「あのように聞けば1位にしなければいけない理由が語られると思った」と述べている。私も同感である。 しかし先日、ついに堂々と要求を述べる顧客に会った。 「1位じゃなきゃダメなんです」 理由はよくわからなかった。しかし毅然とした態度は私に十分訴えるものがあった。1位にする必要があった。 単純にboostをあげると常に上位表示することができるが、インデックスにboostを記録する必要があるため、変更処理が重くなる。そしてその用が済んだとき(キャンペーンの終了など)、boostをリセットするにも重い処理をしなければならない。そんなときは、ある検索語が使われたときにだけ上位表示させることが可能なSolrの機能を検討しよう。それはQueryElevationComponentである。面白いのは、その検索語は上位表示させたいページの文書に必ずしも含まれていなくてもよいことである。インデックスを変更することなく、軽快に上位表示/リセットを実行することができる。 トレーニングコース「速習 Solr 1.4」は12月16日(水)いよいよ千秋楽、12月2日(水)まで受講者募集中! 2009.11.26 Thursday
Lucene 3.0.0のリリース
本日Java 5の各種機能を使ったLucene 3.0.0がリリースされた。Lucene 2.9でdeprecatedとなったAPIは3.0では削除されたので、deprecated APIを使っていたアプリケーションは、代替のAPIを使わなければコンパイルできない。
2009.11.26 Thursday
SSDを効果的に使い検索を高速化する方法
http://old.nabble.com/Distributing-index-over-N-disks-td26504452.html
Lucene/Solrのインデックスが完成されたもので変更がない(追加/更新/削除がなく、マージもされない)ならば、SSDを用意して.frqファイルと.prxファイルを配置し、残りのインデックスファイルはHDDに配置する。そしてHDDのインデックスディレクトリにはSSDへのシンボリックリンクを配置する。 .frqファイルには各TermのDocumentごとの出現数が記録されている。.prxファイルにはさらにその詳細としてその出現毎のフィールドにおけるTermの位置情報が記録されている。いずれもomitTfがfalseのときに.fdtファイルに次いでサイズが大きく、また検索実行時に頻繁にアクセスされるため、これらのファイルを選択的にSSDに配置することで検索コストパフォーマンスを最大化できると期待できる。 2009.11.25 Wednesday
オーバーライド可能になったSimilarityのnorm値計算メソッド(3.1)
https://issues.apache.org/jira/browse/LUCENE-1260
アプリケーションによってはフィールドのnorm値計算(1バイトへのエンコード、1バイトからのデコード)をコントロールしたいという要望に応え、Similarityのstaticメソッドがdepracatedとなり、同じ機能を持つインスタンスメソッドが追加された。 2009.11.17 Tuesday
インデックスの互換性(2.9〜3.0〜4.9)
Lucene 3.0で作成したインデックスはLucene 2.9では読めない。なぜならLucene 2.9でdeprecatedとなったStore.COMPRESSがLucene 3.0では削除され、インデックスのバージョン番号が上がったためである。
従来通りその逆はOKであり、Lucene 2.Xで作成したインデックスはLucene 3.0で検索に使うことができる。また、Lucene 3.0でインデックスを更新すると、新しいセグメントファイルは新フォーマットで作成される。 Lucene 3.0で作成したインデックスは、Lucene 4.9まで使える予定である。Lucene 2.9のインデックスはLucene 4.0になるとサポートされなくなる。 2.9でdeprecatedとなったStore.COMPRESSは、これまで次のように書いていたプログラムを: doc.add( new Field( "body", bodyString, Store.COMPRESS, Index.ANALYZED ) ); 次のようにCompressionToolsを使って書き換えればよい(2行必要になる): doc.add( new Field( "body", bodyString, Store.NO, Index.ANALYZED ) ); doc.add( new Field( "body", CompressionTools.compressString(bodyString), Store.YES ) ); 2009.11.15 Sunday
(メモ)Hadoop 0.20 release tarballのビルド方法
プロパティjava5.homeにJava 5のホームディレクトリ、プロパティforrest.homeにApache Forrestのインストールディレクトリの指定がそれぞれ必要。
$ java -version java version "1.6.0_15" Java(TM) SE Runtime Environment (build 1.6.0_15-b03-226) Java HotSpot(TM) 64-Bit Server VM (build 14.1-b02-92, mixed mode) $ pwd /Users/koji/Project/hadoop/common/hadoop $ ant tar -Djava5.home=/System/Library/Frameworks/JavaVM.framework/Versions/1.5.0/Home -Dforrest.home=/Users/koji/dev/apache-forrest-0.8 : BUILD SUCCESSFUL Total time: 7 minutes 38 seconds $ ls build ant hadoop-0.20.2-dev-examples.jar c++ hadoop-0.20.2-dev-test.jar classes hadoop-0.20.2-dev-tools.jar contrib hadoop-0.20.2-dev.tar.gz docs ivy examples src hadoop-0.20.2-dev test hadoop-0.20.2-dev-ant.jar tools hadoop-0.20.2-dev-core.jar webapps 2009.11.01 Sunday
ホワイトペーパー「Solr 1.4の新機能」
Solr 1.4がまもなく公開される。そこで「Solr 1.4の新機能」を紹介したホワイトペーパーを用意した:
http://www.rondhuit.com/download.html 嗚呼、「今週中には公開されます」「次回お会いしたときには公開されていますよ」と何度顧客に堂々と宣言し、嘘をついてしまったことか。結果的にSolr 1.3の公開から1年以上も経ってしまった。Solr 1.3のときもやはり「出る出る」と言いながら実際にリリースされるまでに半年ぐらい経ってしまっていた。 Solr 1.3公開後にコミッター内では「リリースは6ヶ月毎にはやろうよ」「みんなでやろうぜ(TM by 谷垣禎一)」と盛り上がったのは何だったのか、まあいいけど。 Solr 1.4、お待たせしました、間もなく公開です。 受講者アンケートで大好評の「速習 Solr 1.4」受講者募集中! |
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |