関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
Lucene 2.0リリース
Lucene 1.9.1のバグフィックスが主目的であるLucene 2.0がリリースされた。以下よりダウンロードできる:

http://www.apache.org/dyn/closer.cgi/lucene/java/

これまでDeprecatedであったAPIが削除され、Warningメッセージを無視すればとりあえず開発が可能だったプログラムも、Lucene 1.9からの新APIに書き換えないとコンパイルが通らなくなった。

変更点は以下を参照のこと:

http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_0_0/CHANGES.txt
| 関口宏司 | Luceneとは? | 21:38 | comments(0) | trackbacks(0) |
エンタープライズサーチカンファレンス
今週の月曜日のことだが、ZDNet Japan主催の「エンタープライズサーチカンファレンス」に行ってきた。

テーマは今年来るといわれている「企業内統合検索基盤(Enterprise Search Platform;ESP)」についてである。

ESPとは、社内に分散しているテキスト等のリソースから必要な情報を一発で検索するための「検索のための基盤」である。

今や社内には、ソフトベンダーらのいうがままに導入したシステムが乱立しており、情報を探し当てるのに困難な状況に陥っている。これを解決するのに、統合DBを導入したりERPを導入して情報を集約してみたりするのだが、うまくいった企業はあまりない。そこで、社内システムの乱立状況は認めましょう、ただし検索が簡単にできるようにESPを導入しましょう、という方向に検索業界は向かっている。

これをうまい言葉とスライドで説明していたのは、ウチダスペクトラムの長尾唱さんだ。昔(そいってもそんなに前ではない)は「アプリを統べ」ていたが、これからは「データを統べる」ようにアーキテクチャの「重心移動」が起きる、と説明をしていた。「アプリを統べる」方法には「ミドルウェア」が使われ、「データを統べる」には「検索」が用いられる、という寸法である。

スピーカーにはみずほ情報総研、ウチダスペクトラム、アクセラテクノロジ、オラクル、IBM、Google、Microsoftが登場したが、どの会社もプレゼンの最初に「勤務時間の3割が情報検索に費やされている」という主旨のスライドが入っていたことだ。聴講者としては一回言ってもらえばわかるのだから、事前に打ち合わせをするなどしてもう少しどうにかならないのか。まあ、それくらいはいい。

びっくりしたのは、Googleのプレゼンターが言っていたことだ。

「ユーザは何を検索したいかわかっていない」

いったいそんなことがあるのだろうか。いくら検索界の雄Googleだからといって、ちょっとそれは言い過ぎではないのか。

男はブラウザを立ち上げる。彼のデフォルトのページはGoogleにセットされている。今日は5月5日。したがって、Googleのロゴは鯉のぼりがデザインされている。ふっと頬が緩む。しばし休日出勤の身分を忘れ、子供のころ、一番楽しかった時期に思いを馳せる。

しかしそれは一瞬のことだった。男は仕事の顔に戻り、検索語を入力するためにキーボードに手を伸ばした。しかし、男の指はキーをたたくことはなかった。そして静かに呟いた。

「あれ、何を検索するんだっけ」

男はGoogleの楽しいロゴに気を奪われたがために、それまで入力しようとしていた検索質問語を失念してしまったのである。

「ユーザは何を検索したいかわかっていない」。まったくそのとおりである。Google恐るべし。ちなみにこの男というのは何を隠そう私のことである。
| 関口宏司 | その他(分類不能) | 14:30 | comments(0) | trackbacks(0) |
プロとして恥ずかしくないLuceneの大原則
最近、「プロとして恥ずかしくない何々の大原則」という本が売れているようである。「何々」には、「Illustrator」や「Photoshop」、「スタイルシート」などが入る。

ためしにamazonの検索に「プロとして恥ずかしくない」と入れると、ずらっと出てくる。どうやらシリーズ化しているようだ。

「リストマニア!」という欄には「プロ恥シリーズ」というリンクまでできていた。「プロ恥」という略語ができるくらい流行っているのか?

しかし、「プロ」と「恥」という、本来およそ隣り合ってはいけない用語が連続して登場するタイトルの本が売れているとは、どういうことだろう。

彼らはその道のプロとして仕事をしている。家庭や会社の人間関係に世間並みの悩みもあるが、なんとか日々の生活を営んでいる。仕事もそれなりに忙しい。2006年の日本において高望みさえしなければ、「これでよしとしようか」そんな感情なのであった。しかしそんなある日、仕事と仕事の谷間にちょっとした不安感が彼らを襲うのであった。

「先日納品したあの仕事、プロとして恥ずかしかったかもしれない」。

しかし彼らは、プロである。そしてプロは孤独だ。かくして誰にも相談できずにまた日々の忙しさに巻き込まれ、「プロ恥」の不安感は彼の心の奥深くにしまいこまれてしまうのであった。

以上は私の想像であるが、「プロ恥」シリーズが売れているということは、実体もそれほど違わないのかもしれない。

「プロ恥」シリーズが「Illustrator」や「Photoshop」だからまだいい。「医者」だったらどうか。

「プロとして恥ずかしくない医者の大原則」

そんな医者はいやだ。絶対かかりたくないであろう。

体調が悪くなって、近所の診療所に行ったとする。そこは子供のころから何かあれば通っている、いわば「かかりつけ」の病院だ。久しぶりに行くと、子供のころに診てくれていたおじいさん先生ではなかった。聞いてみるとその先生はおじいさん先生の息子、つまり2代目だ。診療所内もいまどきの病院らしく、小さいながらもシックなインテリアで統一・改装され、待合室にはUSENが静かに流れているのであった。そういえば、おじいさん先生のころに流れていたのはラジオ番組「子供電話相談室」だったことを考えると、ずいぶんな進歩である。

そしていよいよ自分の名前が呼ばれ、診察室に入った。「今日はどうされましたか?」と2代目先生。先生に症状を伝えようとしたその瞬間、彼の机上に一冊の本が置いてあるのが目に入ってしまった。それは「プロとして恥ずかしくない医者の大原則」というタイトルで、ページのところどころから黄色や水色のポストイットがはみ出ている。

こんな医者はやめておいたほうがよい。




ということで、流行の「プロ恥」に私も便乗することにして「プロとして恥ずかしくないLuceneの大原則」というのを考えてみることにした。

今日は(も)無駄話に時間がかかってしまったので(これから出かけなければいけないのだ)、簡単なテーマを取り上げることにする。「プロとして恥ずかしくないLucene」はすぐには思いつかないので、逆に「プロとして恥ずかしいLuceneの使い方」を示すことにした。つまりこれを見習わないことで恥をかかなくてすむ、というわけである。

これは最近だったか、Luceneのメーリングリストに流れていたものだ。あるプログラムがドキュメントの数だけループして、次のコードを呼び出してインデックスに索引付けしている。しかしながら、いざ検索すると、含まれているはずのキーワードで検索できない。「なぜ検索できないのでしょう、助けてください」というものであった:



protected void addOrUpdate(Document doc) throws IOException {
IndexWriter indexWriter = null;
Analyzer analyzer = new StandardAnalyzer();
try {
indexWriter = new IndexWriter(directory, analyzer, true);
indexWriter.addDocument(doc);
} finally {
indexWriter.close();
}
}



答えは、IndexWriterのコンストラクタを呼ぶ際の第3パラメータにtrueを渡しているから、である。このようにしてしまうと、第一パラメータのdirectoryで指定したインデックスを毎回新規作成してしまうので、結果としてループの最後に追加したドキュメントしか索引付けされない状態になってしまうのだ。
| 関口宏司 | プロとして恥ずかしくないLuceneの大原則 | 10:11 | comments(2) | trackbacks(1) |
「Luceneスタートアップサービス」の開発
このたび、「Luceneスタートアップサービス(仮称)」というのを始めることにした。

このサービスは、アプリケーション開発プロジェクトなどでLuceneを初めて使おうとするプロジェクトメンバーが、Luceneを短時間で効率よく学ぶための導入教育パッケージである。

"スタートアップサービス"というと、私事で恐縮だが、昔のことを懐かしく思い出す。ディジタルイクイップメントという会社をご存知だろうか。それは私の新卒で入った会社であった。今はもう、ない。

その会社での最初の配属先での仕事が、"スタートアップサービス"という名称の導入教育であった。

ディジタルイクイップメントの"スタートアップサービス"はDECstartというシリーズ名称で呼ばれ(DECというのは社名Digital Equipment Corporationの頭文字である、念のため)、私は客先に出向いて、OSやネットワークの説明をしたものである。

同社のOSはVAX/VMS(当時;のちにOpen VMSと呼ばれた)、ネットワークはDECnetという。

今思えば、不思議な光景であった。大学出たての新卒社員がOSやネットワークなどの基礎技術を講義するのだ。ちゃんとできていたのか。

また、当時はプロジェクターなどはなく、DECstartの冊子を片手に説明していた。そう考えると、プロジェクターはなんと便利なものだろう。プロジェクターを使えば、「今どのページを説明しているか」が明確だからだ。プロジェクターがなかったので、冊子のページを説明の途中で何度も連呼していたように思う。結構説明に苦労したはずである。

また、当時はWordやPowerPointがなかった。なので、副教材を作ろうと思っても、エディタでプレーンテキストを作ってプリンター(モノクロレーザープリンターはあった)で出力したものを配ったりしたものである。プレーンテキストの資料はのちにLaTexで作成した「ちょっと見栄えのする資料」となったが、資料作りにはとても時間がかかった。

のちに、パフォーマンス診断とチューニングも行うようになったが、私の記憶では、パフォーマンスチューニングにより「レスポンスが良くなりました、ありがとうございます」などと言われたことはない。なぜなら、私の担当顧客のCPUはどこもスカスカだったからである。

まあ、のんびりとしていた時代である。

さて、「Luceneスタートアップサービス(仮称)」であるが、これはDECstart同様、オンサイトの教育サービスとする。通常、Luceneを勉強しようと思ったら、ほかのことはやらずに集中する時間をとってもどうしても1ヶ月(20日間)程度はかかってしまう。これをアプリケーション構築に必須な項目を厳選し、2日間で効率よく学びましょう、というのが同サービスのコンセプトである。


内容(予定)


  • Javaの全文検索ライブラリ"Lucene"のオンサイトトレーニングです

  • 受講者に人数制限はありません

  • PDF資料、プログラミング実習つきです

  • 受講者はJavaプログラミング経験が必要です

  • 受講に適した環境をご用意ください(会議室、ホワイトボード、プロジェクター、PC、インターネット接続環境)

  • 日数:2日間

  • 価格:168,000円(8万円×2日間+消費税)

  • 遠方の場合は別途旅費を申し受けます



メニュー概要(予定)





1日目2日目
午前全文検索
Lucene
インストール
インデックスの作成
インデックスの検索
午後Analyzer
インデックスの作成
インデックスの検索
Luceneツール
注意点



ところで、万全を期したい私としては、「Luceneスタートアップサービス(仮称)」をはじめるにあたってモニターを募集しようと思う。

Luceneをアプリケーション開発プロジェクトでこれから使おうとしているプロジェクトチーム、使おうかどうしようか検討中のプロジェクトチームのメンバーなどに応募していただきたい。モニターなので、受講料は無償である。

モニターの応募方法はロンウイットのコンサルティングお問い合わせフォームを使って申し込んでいただきたい(専用フォームは作らないので)。申し込みに際しては、「モニター応募」であることと、プロジェクトの内容を明記していただきたい。

| 関口宏司 | その他(分類不能) | 11:27 | comments(0) | trackbacks(0) |
会社設立前夜
当初は5月1日の今日、法務局に行って設立登記を済ませる予定であった。しかし、5月以降の日付で資本金の入金記録が通帳になされていなければならないこと、それなのに5月1日朝一で振込み(自分のA銀行からB銀行に)を行っても、B銀行の方に5月1日の何時に記帳されるかわからないことが判明し、
今日はお金の移動だけを行い、入金があったことの記帳を行ってそのコピーを持って明日法務局に行くことにした。

そもそも、なぜA銀行の残高証明ではいけなくて、わざわざ資本金の額だけお金を移動して5月以降の日付の入金の記録をとらないといけないのか、まったくわからない。

それはともかく、明日法務局で司法書士と待ち合わせである。

その後いろいろ作業が山積みなので、一日早いが、新会社のリンクを張ることにする:

株式会社 ロンウイット

この会社ではサーバサイドJavaのコンサルを行うが、主にLuceneを使ったJavaの全文検索システム構築のコンサルに注力していきたいと考えている。

まだホームページはできたばかりなのであまり中身はないが、興味のある方はのぞいてみて欲しい。
| 関口宏司 | 会社の立ち上げ | 21:52 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
 123456
78910111213
14151617181920
21222324252627
28293031   
<< May 2006 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS