2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2011.06.28 Tuesday
Lucene 4.0 の Java 5 サポートがまもなく終了
現trunk(Lucene/Solr 4.0相当)のLucene部分のJava 5サポートがまもなくなくなる。現在投票中だが、圧倒的多数で可決される模様。
Java 5はすでにベンダーのサポートが終了しており、Luceneが踏んでしまったJava 5のバグを回避するために、テストをスキップするなどの回避策をとらねばならず、結果としてLuceneの品質にも影響を与えかねない。また、検索結果のグループ化機能はJava 6の方が速いことがわかっている。よってtrunkはJava 5の制約にしばられることなく開発したいということになった。なお、Solr 4.0は去年からJava 6のみのサポートとなっている。また、バージョン3.xはこれまでどおりJava 5の環境で動作する。 参考 https://issues.apache.org/jira/browse/LUCENE-3239 http://wiki.apache.org/lucene-java/SunJavaBugs Solr 3.3 8月 トレーニング受講者募集中! Solr トレーニングコースパンフレットダウンロードはこちら 2011.06.13 Monday
lucene-gosen を使って節電する
昨日従来のものより25%の処理速度向上を達成したlucene-gosen 1.1.0のリリースをお知らせしたばかりだが、現trunkはさらに改良されてそれよりも9%、以前に比べると35%の高速化を達成した。達成したといっても達成したのはRobertさんで、私は隣で"Great!"とかいって盛り上げているだけである。
ところで、25%〜35%高速化したということは、それだけ早く形態素解析処理が終わる(処理時間が短くなる)のであるから、それだけコンピューターを早く解放できるので節電できているといえるのではないか。いや、そう思いたい。 もちろん24時間形態素解析器を使っているわけではないので、節電量は数パーセントにも満たないかもしれないが、多くのSenのユーザーが新しいバージョンのlucene-gosenに乗り換えれば、全体で結構節電したことになったりしないだろうか。 ・・・などと、全社で節電に取り組む某インテグレーター様にてしばし空想。 2011.06.12 Sunday
lucene-gosen 1.1.0 リリース
lucene-gosen 1.1.0 をリリースした。今回のリリースでは、JapaneseTokenizerが出力する各種Attributeを必要になるまでメモリにロードしないという改善を行い、さらなる高速化を実現した。手元の簡単な計測では、25%の処理速度向上が認められた。
計測に使用したプログラムを以下に示す。データには「第177回国会における菅内閣総理大臣施政方針演説」を使い、これを1万回ループする中で形態素解析を行った。2.2GHz Intel Core i7のMacBook Proで、lucene-gosen 1.0.1で107,144ms、lucene-gosen 1.1.0で80,290msとなった。 static final String STATEMENT = // ここに所信表明演説を貼り付け static final int NUM_LOOP = 10000; public static void main(String[] args) throws Exception { long startTime = System.currentTimeMillis(); for( int i = 0; i < NUM_LOOP; i++){ TokenStream stream = new JapaneseTokenizer(new StringReader(STATEMENT)); CharTermAttribute termAtt = stream.addAttribute(CharTermAttribute.class); while(stream.incrementToken()); stream.close(); if(i % 1000 == 0) System.out.println(Integer.toString(i + 1) + " processed..."); } long endTime = System.currentTimeMillis(); System.out.println("processing time (ms) : " + Long.toString(endTime - startTime)); } なおこの改善により、PartOfSpeechAttributeのコピーを保持するTypeAttributeがJapaneseTokenizerから出力されないようになった。これまでJapaneseTokenizerが出力するTypeAttributeでなにか処理をするTokenFilterを持っている人は、代わりにPertOfSpeechAttributeを参照するように変更する必要がある。 2011.06.04 Saturday
Luceneの歴史を振り返り、勝手に懐かしむ
このあいだSolr勉強会でLucene/Solr 3.1の話をしてきたばかりだが、来週にはもう3.2が出ようとしている。ところで今回のリリースのタイミングで、CHANGES.txtの過去にさかのぼってリリースの日付がすべて削除されるというコミットがあった。もちろんソースコード管理(Subversion)を見れば削除前の日付を参照できるが、すべてのリリース時点の日付が必ずしも入っていないのがどうやら気に入らなかったようだが、なにもあるものについて消さなくたっていいじゃんかと思いつつ、消される前のCHANGES.txtを見ていたらなんだか懐かしい感じがして(といっても私は1.4からのユーザーだが)、過去のリリースをピックアップして振り返るのも楽しいかも。ということでブログを書く。
|
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |