関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< 会社ロゴ制作 | main | Lucene替え歌 >>
Apache Lucene入門
一昨日より、拙著「Apache Lucene 入門 - Java・オープンソース・全文検索システムの構築」がアマゾンで予約販売を開始した。
表紙画像はまだないようなので、ここに表示したい。こんな表紙である:

本の表紙

小さくてよくわからないかもしれないが、写真の部分は渦巻銀河である。そして、渦巻きの白い部分はよく見ると「テキスト」になっている。

全文検索は膨大なテキスト情報から検索質問語をキーにして目的の文書を取り出す機能であるが、「膨大なテキスト情報」を数千億もの星が集まって構成されているといわれる「銀河」になぞらえたイラストで、なかなかしゃれている。

最近、こういった本の表紙イラストや立ち上げ準備中の新会社のロゴという、デザイナーの仕事(アウトプット)を間近で見る機会が続いているが、感心しきりである。デザイン自体もそうだが、彼らの発想もまたすばらしい。

さて、肝心の本の中身だが、まえがきの後に書いた「本書の構成」の原稿を以下に貼り付けるので、参考にしていただきたい。

近日中にある事情で「ボツ」になったまえがきの原稿も公開しようと思う。




本書の構成

本書は6章構成になっており、第1章から第4章が前編、第5章と第6章が後編となっている。前編を「基本編」、後編を「応用編」と読み替えてもよい。Luceneのアプリケーションを書くためには「基本編」である第1章から第4章を通読しておくことが望ましい。「応用編」である第5章と第6章は余力があれば読むとよいだろう。

第1章は、全文検索とLuceneの基本知識の習得を目標とし、これらについて簡潔に述べている。Luceneに関しては、最初の全文検索のサンプルプログラムを作成し、その内容や動作を紹介している。サンプルプログラムの題材(全文検索のためのコンテンツ)には、日本でもっとも有名なファミリーである「サザエさん一家」を使用している。

第2章は、Analyzer(アナライザー)について説明している。Analyzerは、全文検索の対象となるドキュメントテキストを分析し、単語を取り出す働きをするものである。本章では特に日本語のテキストの分析に重きを置き、JapaneseAnalyzerの解説にページ数を割いている。その後、CJKAnalyzer、StandardAnalyzerおよびその他のAnalyzerを紹介する。

Luceneは全文検索に「転置索引方式」を採用している。そのため、検索の前にあらかじめ「インデックス」を作成しておかなければならない。第3章では、その「インデックス」の作成方法について説明している。その後、第4章で「インデックス」の検索方法について説明している。全文検索のサンプルデータとしては、サンプルプログラムの内容と動作の理解が進むよう、読者にとって親しみやすいと思われる「技術評論社の書籍データ」と郵便局の「大口事業所等個別番号データ」を用いた。

後編の第5章では、前編で習得した知識を使って、全文検索機能を持ったWebアプリケーションを作成する。このWebアプリケーションの検索機能は、「データベース」、「HTMLファイル」、「XMLファイル」、「PDFファイル」および「Mocrosoft Wordファイル」といった「異種ドキュメント」を透過的に検索し、表示する。

第6章では、「セキュリティ」、「検索質問語の強調表示」、「Ajaxを使用したインクリメンタルサーチ」等々といった、より応用的・発展的な内容を取り上げている。読者のLuceneアプリケーションにいろいろな機能を追加する際のヒントとなるだろう。

なお、Appendix AにはLuceneはじめ、その他の関連ツールおよび本書のサンプルプログラムのインストールと実行方法を掲載している。
| 関口宏司 | 書籍「Apache Lucene入門」 | 10:10 | comments(11) | trackbacks(0) |
きましたね、かっちょいい!
中味にも、もちろん期待しています。
| Taka | 2006/04/27 1:19 PM |
ありがとうございます。池本さんが飲みに行きましょうと言ってましたよ。
| 関口 | 2006/04/27 9:28 PM |
是非、飲みに行きましょう。
予定が決まり次第お知らせください。
| Taka | 2006/04/28 12:38 PM |
あるプロジェクトでLuceneを使うことになりLucene in Actionを読みました。もう少し早く出版されていれば・・・^^;
| hid | 2006/05/02 12:49 PM |
コメントありがとうございます。LIAはいい本ですよ。私の会社(ロンウイット)の方から「Apache Lucene入門」に掲載のサンプルコードがダウンロードできるようになっているので、「日本語全文検索」のサンプルとして参考になさってください。Luceneのコンサルもやっていますので、よろしければご利用ください。
| 関口 | 2006/05/02 1:14 PM |
はじめまして。
今関口さんのLuceneの本の購入を考えているんですが、私の場合DBに入っているデータの中の日本語全文検索をしてHTML表示をしたいんですが、そのようなサンプルは入っているんでしょうか?
| 百姓 | 2007/03/06 3:52 PM |
はい、入っているといえば入っています。第5章がHTML、PDF、WordそしてDBに入っているデータを横断検索して検索結果一覧を表示するようなサンプルになっています。

サンプルコードは私の会社のホームページからダウンロードできますので、本を購入しなくても見ることはできます。もちろん、買ってくれればうれしいですが :->
| 関口 | 2007/03/06 11:17 PM |
レスありがとうございます。
きっと関口さんの本を読んだほうが理解できそうな気がするので本を購入させていただくことにします。(というか、理解力がないので読まないと無理そうですw)
また何かこのサイトに書きこませていただくかもしれませんが、今後ともどうかよろしくお願いいたします( ^ω^)
| 百姓 | 2007/03/08 8:55 PM |
こちらの書籍はもう販売していないのでしょうか?
購入したいのですが。。。。
| takuyakun | 2009/12/27 1:05 AM |
> こちらの書籍はもう販売していないのでしょうか?
> 購入したいのですが。。。。

はい、何度か聞かれているので私も技術評論社に聞いたことがあるのですが「Amazonで中古で入手する以外にない」という回答でした。

東京都内であれば江東区の図書館に寄贈したことがあるので、(江東区在住でなくても)近所の図書館に予約すれば読むことができます:

江東区図書館検索
http://www.library.city.koto.tokyo.jp/csp/kotw/cal950.csp
| 関口 | 2009/12/27 7:58 AM |
>はい、何度か聞かれているので私も技術評論社に聞いたことがあるのですが「Amazonで中古で入手する以外にない」という回答でした。
>
>東京都内であれば江東区の図書館に寄贈したことがあるので、(江東区在住でなくても)近所の図書館に予約すれば読むことができます:

どうもありがとうございます。
現在は、AmazonにもBookOffにもないようですね。。。。
残念です。
| takuyakun | 2010/01/09 7:21 PM |









http://lucene.jugem.jp/trackback/76
+ Solrによるブログ内検索
+ PROFILE
      1
2345678
9101112131415
16171819202122
23242526272829
30      
<< September 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS