関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
Solr本の訂正(?) DataImportHandler
本日Solr本「6.4 XMLからのインポート」を試したら、何もデータがインポートされなかった。原因は、SlashdotのRSSフィードがSolr 1.3当時(このときに初めてDIHが導入され、同時にSlashdotのサンプルが付属した)のRSS 0.9からRSS 1.0に変更になったことにあるようだ。すでに次期バージョンのSolr 3.1では修正された。Solr 1.4.xで手っ取り早く直すには、example/example-DIH/solr/rss/conf/rss-data-config.xmlファイルの中のRSS URLをhttp://rss.slashdot.org/Slashdot/slashdot/toに変更すればよい。

https://issues.apache.org/jira/browse/SOLR-2190
| 関口宏司 | 書籍「Apache Solr入門」 | 01:02 | comments(0) | trackbacks(0) |
Solr trunk URLの移動の件(書籍「Apache Solr入門」訂正)
LuceneとSolrの開発環境がマージされたことに伴い、Lucene-javaとSolrのtrunkソースコードのURLが変更になった。

Solr本ではすべて安定リリース版Solr 1.4を使っているので関係ないと油断していたら、読者の方からP.158にFlare(SolrのRailsクライアントでtrunkにのみ存在する)について書いている部分があり古いtrunkのURLを参照しているところがあることを指摘していただいたのでここで訂正(というか、執筆当時は正しいURLであった)する:

(誤)http://svn.apache.org/repos/asf/lucene/solr/trunk/client/ruby/flare

(正)http://svn.apache.org/repos/asf/lucene/dev/trunk/solr/client/ruby/flare

もう少し間違いが見つかったら、ちゃんと正誤表を書こう。。。
| 関口宏司 | 書籍「Apache Solr入門」 | 00:48 | comments(0) | trackbacks(0) |
solrbook.zip の再アップロード
「Apache Solr入門」読者の方から「ダウンロードしたsolrbook.zipに含まれているはずのsolrj-sample.war(121ページ)というファイルがない」とご指摘をいただいた。確かにその通りだったので、先ほどパッケージし直してアップロードした。

本日夜(3月2日20時頃)以前にsolrbook.zipをダウンロードした方は、お手数ですが再度ダウンロードしてください。
| 関口宏司 | 書籍「Apache Solr入門」 | 20:33 | comments(0) | trackbacks(0) |
書籍「Apache Solr入門」
技術評論社より「Apache Solr入門」を出版した。Amazonではまだ予約受付中というステータスだが、昨日Magic Mouseを買いにヨドバシAkihabaraに行ったついでに7階の有隣堂書店をのぞくとすでに販売されていた。

以下に紹介に代えて「まえがき」の原稿を掲載する。

はじめに

楽しい情報検索の世界へようこそ!

本書はApache Solr(アパッチ ソーラー;以下Solrと記します)を体系的に解説した、初の日本語による入門書です。SolrはApache Lucene(アパッチ ルシーン;以下Luceneと記します)を使って構築されたオープンソースの検索エンジン・サーバです。Luceneはすでに世界中のシステムで使われている実績を持っていますが、Javaで書かれた検索エンジン・ライブラリであり、利用するにはJavaのプログラムをたくさん書かなければいけません。それに対してSolrは、LuceneをラップしてHTTP/XMLというRESTライクな今どきのインタフェースでアクセスできるようになっています。もちろんインタフェースを簡単にしただけでなく、機能や性能を向上させるいろいろな仕掛けもプラスされています。自動車でたとえるなら、Luceneは高信頼&高性能のエンジンであり、Solrはそのエンジンを使って組み立てられカーナビまで備えた完成車といえるでしょう。そのためSolrは、2006年に公開されるやいなや急速に市場に受け入れられ、利用者が急拡大しました。

前著「Apache Lucene入門」(技術評論社)出版から約4年が経ちました。その間、インターネットやイントラネットで生産される情報は増え続け、情報活用のための検索機能は当時よりもいっそう必要とされている実感があります。今やソフトウェア技術者にとって、検索エンジンの知識はミドルウェアやデータベースに次いで必要とされる技術要素になっているといえるかもしれません。

私はこれまでさまざまな情報システムへの検索機能導入に携わる経験をし、今度はそこで出会った仲間と本書を著す機会を得ました。執筆者一同は日常的にSolrに触れ、この素晴らしい検索エンジンをもっと多くの人に知ってもらいたいとうずうずしていましたが、今ようやくそのときが訪れました(なかなか出せなかったのは、Solr 1.4のリリースを待っていたからであります!)。本書によって一人でも多くの方がSolrを理解し活用して、検索機能を付加したりアプリケーションをより魅力的に変身させられたら執筆者一同のこの上ない喜びです。

それではまた、本文でお会いしましょう!

2010年1月
関口宏司



謝辞

まずSolrの産みの親であるYonik Seeleyさんに感謝いたします。Yonikさんはその類い希なるプログラミングの才を存分に発揮して、高性能検索エンジンLuceneを、Web時代にマッチした軽快なインタフェースを通じて誰でも簡単に利用できるように仕立て上げました。そしてCNET社にも感謝いたします。SolrはCNET社で開発されましたが、CNET社がApacheにソースコードを寄贈してコードが公開されたことでユーザが一気に広がり、今日のSolrコミュニティの基礎を築きました。また関口個人としては、担当編集者の池本公平さんとLucene/Solrコミュニティに感謝いたします。特に池本さんは本書が出版できるよう、技術評論社を説得してくれました。どうか彼が今後も会社でつつがなく勤務できるくらいに本書が売れますように!そしてLucene/Solrコミュニティは、私が(株)ロンウイットを創業するきっかけとなり、そこそこの仕事の自由と世界中のエンジニアとコラボレートしながらソフトウェアを構築していくというエキサイティングな日常をプレゼントしてくれました。慢性的な寝不足というおまけを添えて。みんな、ありがとう!



対象読者

本書は、情報検索に興味を持つ、あらゆる人を対象としています。学生から社会人、週末プログラマから職業プログラマ、SE、プログラミングをしない情報システムを使うだけの人、検索エンジンを比較検討しようとしている人・・・制限はありません。それぞれの立場でSolrをお楽しみください。しかしながら本書はSolrの技術解説書でもあり、Solrをインストールしたりサンプルコードを設定したりする場面もあります。そのときは技術的なバックグラウンドのある方は若干有利でしょう。自分の経験に感謝しつつ、コマンドを入力したり、検索して結果を確認したり、より深くお楽しみください。



本書の構成と読み方

本書は全10章から構成されますが、すべてに目を通す必要はありません。第1章の前半では検索エンジンの基本を紹介しています。すでに検索エンジンについての知識があれば、読まなくてもかまいません。次にSolrのインストール方法を説明しています。本書はSolrを使いながら説明しているところが多いので、ここでぜひ手元のPCにSolrを準備しておくことをお勧めします。最後にアーキテクチャを解説していますので、ここもぜひ目を通しておくと良いでしょう。

第2章から第4章はSolrの基本知識である「スキーマ定義」「インデックス作成」および「検索」について体系的に説明しています。ぜひ一通り読んでおくことをお勧めします。

第5章はプログラマのための章です。SolrにHTTPで検索リクエストを送ると、検索結果はXMLで返ってきます。そのため、XMLをHTMLなどに変換するフロントエンドが必要ですが第5章はさまざまなプログラミング言語でフロントエンドをプログラミングする方法を紹介しています。

第6章以降はさらにSolrを活用したい人たち向けのパートです。第6章ではリレーショナルデータベースなどの情報リソースからSolrのインデックスにデータを取り込むための仕組み「データインポートハンドラ」の使い方を紹介しています。第7章ではSolrコアを複数持つための仕組み「マルチコア」の使い方を紹介しています。第8章は巨大なインデックスを分割して検索する仕組みである「分散検索」の設定方法や使い方を紹介しています。第9章はSolrの検索機能を応用してレコメンデーションやスペルチェックなどの楽しい仕掛けをアプリケーションに付加できる「サーチコンポーネント」を多数紹介しています。そして第10章はユーザ企業の立場から経験上得られた貴重な知見やSolrの癖などの情報を紹介しています。



サンプルコードのダウンロードと本書のサポート

本書で紹介しているサンプルプログラムや設定ファイルは、技術評論社のホームページをはじめ、執筆陣が勤務する下記の会社のホームページからダウンロードできます:

株式会社シーマーク http://www.seamark.co.jp/
株式会社ロンウイット http://www.rondhuit.com/

本書の執筆には万全を期しましたが、ソフトウェア同様、残念ながら不具合が紛れ込む可能性があります。万一誤りを発見したり、手順通り試したのに動かない等ありましたら、上記ホームページの問い合わせフォームなどからお気軽にご連絡ください。また、下記ブログのコメント欄でも受け付けます:

関口宏司のLuceneブログ http://lucene.jugem.jp/

いただいた問い合わせには、個別に回答したり、ブログの記事上で回答したり、正誤表を作成したり等、なんらかの対応をしたいと思います。なお対応には時間がかかる場合がありますので、あらかじめご了承ください。
| 関口宏司 | 書籍「Apache Solr入門」 | 10:15 | comments(55) | trackbacks(2) |
+ Solrによるブログ内検索
+ PROFILE
      1
2345678
9101112131415
16171819202122
23242526272829
3031     
<< December 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS