関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
Lucene/Solr 3.1 プレゼン資料
第5回Solr勉強会の資料をアップロードした。

http://www.slideshare.net/KojiSekiguchi/lucenesolr-31
| 関口宏司 | Luceneセミナー | 02:40 | comments(0) | trackbacks(0) |
プレゼン資料「オープンソース検索エンジンの今」@SCS
本日SCS様で行われたカンファレンスの私のプレゼン資料をSlideshareにアップロードしました。

オープンソース検索エンジンの今

http://www.slideshare.net/KojiSekiguchi/todaysosssearcheng
| 関口宏司 | Luceneセミナー | 23:25 | comments(0) | trackbacks(0) |
(メモ)Lucene Revolution 公開資料
Lucid Imaginationのダウンロードサイト

先日のTwitter検索がLuceneを使ったという発表の内容も、結構詳しく書かれている。

おまけ: BBQ @ Lucene Revolution Oct 2010
私もBBQに誘っていただいたが、残念ながら東京を離れるわけにいかず不参加となった。
| 関口宏司 | Luceneセミナー | 23:54 | comments(0) | trackbacks(0) |
第3回 Solr 勉強会 資料
資料をSlideshareにアップロードした:



参加できなかった方へ、最後のページの「問題です」というのは何かというと、「この問題がわかればSolrトレーニングの基礎コースをとばして応用コースを受講しても大丈夫」という意味である。

Solrトレーニング 受講者募集中
| 関口宏司 | Luceneセミナー | 07:38 | comments(0) | trackbacks(0) |
BASIS Conference 2010 分科会セミナー資料の公開
4月22日に開催された「次世代サーチ・テクノロジー・フォーラム2010」では弊社も「Solrにおける日本語処理の現状」というタイトルでセミナーを担当したが、その資料を公開した:

http://www.rondhuit.com/download.html

私の方はなかなか仕事で慌ただしくセミナー後に客先に行ったりしてゆっくりできなかったが、雨天にもかかわらず大勢の方が参加していたようだ。ようやくその日の夜に、主催者のBASIS Technology社のCEOカール・ホフマン氏にパーティーに招かれた折りにYonikさんや奥さんのマーガレットさんにお会いした。

Yonikさんからは「RONDHUITはなんと発音するんだ?」「名前の由来は?」などを聞かれ答えたり、私からは「なぜCNETはSolrをOSSにしたのか?」「CNETの前は何をしていたのか?(Yonikさんは元CNET社員と判明)」「カリフォルニアに住んでいたのか(YonikさんはCNETの前はBEA社員と判明)」などを尋ねたり、他のCommitterの話をしたりしてあっという間に時間が過ぎたのだった。
| 関口宏司 | Luceneセミナー | 22:15 | comments(0) | trackbacks(0) |
(訂正記事)=>Erik Hatcher 氏、Yonik Seeley 氏来日!
先日の表題の記事、Erik HatcherではなくEric Griesさんでした。BASISさんとの打ち合わせで「ヨニックさんとエリックさんが来ます」とのことだったので、そのコンテキストでは誰だってErik Hatcherだと思いますよね。。。
| 関口宏司 | Luceneセミナー | 00:30 | comments(0) | trackbacks(0) |
Erik Hatcher 氏、Yonik Seeley 氏来日!
BASIS Technologyのプライベートカンファレンス「次世代サーチ・テクノロジー・フォーラム2010」が4月22日(木)に開催される。BASIS社員によると今回は「LuceneとSolrの技術とビジネスを全面に展開したフォーラムとなる!」とのことで、Lucene/SolrのコミッターであるErikさんとYonikさんも招聘するとのこと。このうちYonikさんは22日の分科会(参加費無料)で「開発者が語るSolr」とその前日のプレイベント「開発者直伝:Solr1.4トレーニング」(有料)で講演を行う。

このほか22日の分科会では元FAST Search社のChistian Moenによる「FAST ESPとSolrの比較」、BASIS Technologyによる「固有表現抽出製品REXの紹介」「Lucene入門」などのセミナーが開催される。
| 関口宏司 | Luceneセミナー | 10:52 | comments(0) | trackbacks(0) |
(メモ)Free live video streaming of ApacheCon US 2009
http://streaming.linux-magazin.de/en/program-apachecon-us-2009.htm
| 関口宏司 | Luceneセミナー | 00:24 | comments(0) | trackbacks(0) |
第2回 Rails開発者向け全文検索エンジンSolrの無料セミナー開催
Ruby on Rails開発者向けに全文検索エンジンSolrの入門セミナー(無料)を開催する。

日時:7月16日(水) 14:00-16:00
場所:株式会社ロンウイット(東京都千代田区丸の内) 会議室
内容:
1. 日本語全文検索の基礎
最初に日本語全文検索について簡単におさらいします。
2. Apache Solrのインストールと起動
各自のノートPCに実際にApache Solrをインストールし、起動方法を学びます。
3. ドキュメントの登録
こちらで演習用に用意したドキュメントをApache Solrに登録します。
4. ドキュメントの検索
登録したドキュメントをApache Solrの管理画面を使って検索します。
5. Railsアプリケーションからの検索
フリーワード検索を実行するRailsアプリケーションを作成します。
また、ファセットカウントの取得から絞り込み検索を実行するシナリオを実装する方法を学びます。

お申し込みは以下のフォームからどうぞ!

http://www.rondhuit.com/seminar.html

| 関口宏司 | Luceneセミナー | 09:26 | comments(0) | trackbacks(0) |
Distributed Search on Solr 1.3
先日「第1回 Railsアプリケーション開発者のためのSolr入門」という無料セミナーを開催し、無事終了した。

会場となる小会議室はインターネット接続がないため、受講者が持ち込むノートPCには「Ruby+Rails+JDK5(以上)」をあらかじめインストールしておいてもらわないといけないのだが、皆さん準備万端で参加してもらい、(USBメモリで)配布した教材も全員のノートPCで問題なく動作し、第1回目にしては上出来であった。

受講者の半数以上はMacを持ち込んでの参加であったのも印象深かった。こちらの記事で紹介したとき以来、普段から不満たらたらでVistaノートを使っている私は「次に買うときは私もMacに決めているんですよ」と負け惜しみを言うのが精一杯であった。

受講者アンケートもとらせてもらったが、ほぼ100%の満足度が得られたようで、よかった。受講者の方でさっそく記事にしてくれた方もいる。気分がいいので来月も開催しようと考えている(会議室と私のスケジュールの空き具合で、日程は現在調整中)。

アンケートには「Solr以外の検索エンジンを使用・検討したことがある方」向けに「その検索エンジン」と比較して「Solrが優れている点・Solrが劣っている点」を聞いてみた。受講者の一人が「Solrは(使ったことのある)Luceneと比べてスケーラビリティが劣っている」と回答していた。

この点についてコメントしておきたい。

まずスケールアップに関しては、LuceneでもSolrでもなんら変わるところはないと考えられる。スケールアウトについても同様だ。

だとすると、この方の指摘する「スケーラビリティ」とは(中身の異なる)インデックスを横断検索するLuceneでいうところのMultiSearcher機能がSolrにはない、といっているのかもしれない。

無料セミナーで使用したSolrの安定版であるリリース1.2ではこれは正しい。

しかし、現在開発中のSolr 1.3ではDistributed Search機能が導入される予定であり、「億オーダ」を超える検索対象文書数を扱えるようになる(Distributed Search機能を使わないときの理論値は最大約21億件(=Integer.MAX_VALUE))。LinuxWorldでも話したが、SolrのDistributed Search機能ではLuceneのdocidのIntegerをLongに変換することから、理論上900京件超の文書数が扱えるようになる。

Solrのこの横断検索機能はGoogleの分散検索処理と同じしくみ(シーケンス)で動作しているため、十分スケールすることは(Googleによって)すでに証明済み、といってもよいだろう。

「Googleの分散検索処理」については技術評論社発行のGoogleを支える技術」の第2章に記載されている。Solr 1.3のDistributed Searchはこれと同様である。

もっとも、1億件くらいまでなら従来のままの構成でもなんとか動かそうと思えば動くものである。
| 関口宏司 | Luceneセミナー | 06:51 | comments(1) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
 123456
78910111213
14151617181920
21222324252627
28293031   
<< October 2018 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS