関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
(メモ)コーパス
Luceneのメーリングリストに流れていたので、メモ。

http://www.findbestopensource.com/article-detail/free-large-data-corpus
| 関口宏司 | その他(分類不能) | 20:39 | comments(0) | trackbacks(0) |
off topic: Tomcatセキュリティチームが残念に思った脆弱性報告の件
Tomcatのセキュリティチームが遺憾の意を表明したセキュリティ関連の件。公開システムではなく、プライベートなメーリングリストで報告してください、とのこと。

参考:[Solrプラグイン] セキュリティ警告:CVE-2011-3190 Apache Tomcat Authentication bypass and information disclosure
| 関口宏司 | その他(分類不能) | 10:38 | comments(0) | trackbacks(0) |
Lucene/SolrをJava 7で使うときの注意(あるいはJava 6以前でもホットスポットのバグを踏む可能性あり)
本日リリースされたオラクルのJava 7に関し、Lucene/Solrプロジェクトから重要なお知らせがある。ロンウイットのホームページにも掲載したが、あまりにも重要なため、同じ内容になってしまうがここにも掲載しておく。

Apache LuceneとApache Solrユーザの皆様こんにちは。そして他のJavaベースのApacheプロジェクトのユーザの皆様こんにちは。

オラクルは本日Java 7をリリースしました。残念なことにいくつかのループを誤ってコンパイルするホットスポットコンパイラ最適化が含まれています。これはいくつかのApacheプロジェクトのコードに影響を与えます。ときどきはJVMをクラッシュさせたりするだけですが、他のケースでは計算結果が正しくなくなりアプリケーションのバグを引き起こします(ホットスポットバグ 7070134 [1], 7044738 [2], 7068051 [3] を参照してください)。

Apache LuceneコアとApache Solrは2つのApacheプロジェクトであり、これらのバグの影響を受けます。本日までにリリースされたすべてのバージョンが影響を受けます。Solrユーザはデフォルトの設定で、ドキュメントをインデックスし始めるとすぐにSIGSEGVでJavaがクラッシュします。これは有名なPorter Stemmerがこのバグの影響を受けているためです(LUCENE-3335 [4] を参照)。Luceneでは他のループも誤ってコンパイルされ、インデックスが壊れる原因となります(特にLucene trunkをパルスコーデックで使っている場合やその他のループも影響を受けます。LUCENE-3346 [5] を参照)。

これらの問題は、Java 7の公式リリースの5日前に発見されました。そのためオラクルはこれらのバグを修正する時間がありませんでした。私たちの問い合わせに対し、オラクルはこれらの修正をサービスリリースu2に入れることを提案してきました(最終的にはu1となりました。[6] を参照)。これはつまり、Apache Lucene/SolrをJava 7ではUpdate 2まで使えないことを意味します!もしJava 7を使うのであれば、どうぞApache Lucene/Solrに対してバグチケットをオープンしないでください、私たちコミッターのせいではありません!少なくともJVMオプション-XX:-UseLoopPredicate を使ってループ最適化をはずすことによりインデックスの破壊を避けることができます。

注意:Java 6ユーザもJVMオプション-XX:+OptimizeStringConcat または -XX:+AggressiveOpts を明示的に使うことでこれらの問題に遭遇します。

ホットスポット最適化関連のスイッチはどんなJavaバージョンであれ、十分なテストをしてからお使いください!

Java 7にアップグレードする場合、再インデックスをするのを忘れないでください。Java 7で出荷されるユニコードバージョンが変わっており、トークナイズのふるまいが異なります(アルファベットの小文字正規化など)。詳しくは配布パッケージに含まれる JRE_VERSION_MIGRATION.txt を参照してください!

Luceneプロジェクトを代表して、
Uwe



OutOfMemoryErrorでお困りでしたら・・・Solr 3.3 9月 トレーニング受講者募集中

Solr トレーニングコースパンフレットダウンロードはこちら
| 関口宏司 | その他(分類不能) | 10:06 | comments(0) | trackbacks(0) |
-XX:+AggressiveOpts はHotspotをクラッシュさせる件
Java 6で-XX:+AggressiveOpts オプションをつけてLucene/Solrを実行するとHotspotがクラッシュ、SIGSEGV となる。特にPorterStemFilterを使っているときに起こることが確認されている。-XX:+AggressiveOpts オプションはJava 7ではデフォルトらしい。Java 6では-XX:+AggressiveOpts オプションを使わなければ回避できる。

メーリングリストより引用

OutOfMemoryErrorでお困りでしたら・・・Solr 3.3 9月 トレーニング受講者募集中

Solr トレーニングコースパンフレットダウンロードはこちら
| 関口宏司 | その他(分類不能) | 07:35 | comments(0) | trackbacks(0) |
Apacheのソースコード管理リビジョン番号1,000,000をYonikが達成
ApacheプロジェクトではSubversionでApacheプロジェクト全体のソースコード管理をしており、リビジョン番号はApacheプロジェクト全体での通し番号となる。その番号が昨晩ついに1,000,000に到達し、Lucene/SolrコミッターであるYonikがその番号を踏んだ。意外に注目されていたらしく、「おめでとう!」メールが何通か飛んだり、Apacheでアナウンスされたりした:

The ASF Hits its Millionth Commit!

ちなみに私はその直前の999,984と999,990をコミットしたが、build.xmlのちょっとした修正(ちょっとした修正ではあるが、これによりFastVectorHighlighterのJavadocのリンクが正しい位置に出力される)なので、もし1,000,000を踏んでいたら「おまえ狙っただろ」と思われたかも知れないので、実はほっとしている。
| 関口宏司 | その他(分類不能) | 08:00 | comments(0) | trackbacks(0) |
投票結果〜Lucene Connectors Framework の名称変更
  • Apache Connectors Framework 15
  • Apache Manifold 11
  • Apache Yukon 9
  • Apache Macon 4
  • Apache ManifoldCF 3
  • Apache Omni 1
  • Apache Acromantula 1
  • Apache Lukon 1
| 関口宏司 | その他(分類不能) | 00:20 | comments(1) | trackbacks(0) |
Lucene Connectors Framework の名称変更
現在、Luceneのサブプロジェクトとして始まり、Apache Incubatorのもとで管理されているLucene Connectors Framework(LCF)の名前をリリース前に変更しようという話が持ち上がってきているが、例によって名称のアイディアがいろいろ出てきてなかなか収拾がつかない状態となっている。

名前というと私もじっとしていられないたちで、古くはApache Ant本(※1)のまえがきでAntの名前をいじり、Lucene本のまえがきでLuceneの名前をいじったものである。それが祟ってか、自分の会社の名前がなかなか決まらなかった。

LCFの方では、「Doug Cuttingの子供に名前をつけてもらおうか」(※2)と冗談とも本気ともつかない話も出てきている。



※1・・・絶版となっているApache Ant本を現在「Solr 1.4 トレーニングコース」受講者に贈呈中!なくなり次第終了です。

※2・・・Hadoopの創始者であるDoug Cutting氏の子供の象のぬいぐるみの名前がHadoopというのは、今や有名な話。
| 関口宏司 | その他(分類不能) | 00:14 | comments(0) | trackbacks(0) |
(メモ)JarFinder
OSSのJarファイルのファイル名の一部やそのJarファイルに含まれるクラス名を検索するツール:

http://jarfinder.com/
| 関口宏司 | その他(分類不能) | 11:34 | comments(0) | trackbacks(0) |
Apache PDFBox 1.1.0のリリース
日本語の文字化け不具合の改修を含むPDFBox 1.1.0が本日リリースされた。
| 関口宏司 | その他(分類不能) | 00:03 | comments(0) | trackbacks(0) |
(off topic)(メモ)svnコミットログの修正方法
Solrの不具合修正のコミットログを間違えてあせった。修正方法をメモしておく:

# まちがったコミットログのリビジョン番号を確認
$ svn log 修正をコミットしたファイル
# 上で得たリビジョン番号(824380とする)を指定してログメッセージを修正
$ svn propset --revprop -r 824380 svn:log "SOLR-670: Rollback should reset not only adds/deletesById/deletesByQuery counts but also cumulative counts of them."


コミットログを失敗した同じコンソールのワーキングコピーにて上記の通り操作する。コミットは不要で上の通り実行すればいきなり書き換わる。

(参考)http://svnbook.red-bean.com/en/1.1/re23.html
| 関口宏司 | その他(分類不能) | 00:40 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
   1234
567891011
12131415161718
19202122232425
262728293031 
<< August 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS