関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
LuceneによるWebサイト内検索のデモ
Luceneを使ったWebサイト内検索のデモを作成したので公開する:

http://demo.rondhuit-search.com/ssdemokag1000/

「鹿児島県」のホームページが検索できるデモとなっている。

インデックスを作成するにあたっては、同ホームページのトップページからアンカーリンクをたどってページを収集し、2,500ページに達したところで終了した。サーバに負荷をかけないように、2時間かけてゆっくりとクロールした。

今回クローラーを開発し、実行したことでいくつか気づいたことがある。それは、404エラー(ページが見つかりません)やリンク中の不正なURL文字列の指定、そして、タイトルのないHTMLページが結構存在するということだ。

これはただ単に気づいただけではもったいないので、ログとして記録し、参照できるようにした。上記URLのページの「クロールレポート」をクリックすると見ることができる。

また、インデックスを作成すると、どのような単語が多く含まれているかを知ることができる。今回のデモでは、「頻出語トップ10」という形でグラフ表示するようにした(下図)。

頻出語トップ10

この情報も同じく上記URLのページの「インデックス情報」をクリックすると見ることができる。




このような検索機能(やクロールレポート作成)を任意のホームページに対して試すことができる「お試しサービス」をこのたび開始したので、

「Webサイトのページが増えてきたので、新規に検索機能を付けたい」

あるいは

「Namazuを使っているが、Luceneはどうなんだろう」

とか

「Googleフリー検索を使っているが、広告が出てしまうので他のツールを探している」

という方は一度下記のサービスを検討してみてもらいたい:

RONDHUIT サイト内検索1ヶ月無料お試し
| 関口宏司 | Luceneとは? | 09:40 | comments(0) | trackbacks(0) |
BEA dev2dev オフラインミーティング 7月10日@東京
私の元上司の日本BEAシステムズの佐々木さんから「7月10日のdev2devのオフラインミーティングのセッションで話をしませんか」とお誘いがあった。

このオフラインミーティングというのは、私の歴史認識に誤りがなければ、私がBEAのプリセールスに在籍していたときに開始したBTM(東京三菱銀行(Bank of Tokyo Mitsubishi)ではなく、BEA TechTopic Meetingの略である)に端を発している。この集まりは回を重ねるごとに深みを増し、WebLogicエキスパートを囲い込む一方、初心者への壁を高くし、ゆえに参加者が減少傾向にあると聞く。

私のセッションがこの集まりにとどめを刺して解散に追い込んでしまうのではないか、一瞬、そんな心配が頭をよぎった。そのため、返事を躊躇した。数十秒の沈黙が二人の間を支配した。あるいは、数秒だったのかもしれない。

しかし、佐々木さんは私の沈黙の原因を別に解釈したらしい。彼はこのように付け足した。

「第3部ではビールも出ますよ」

「行きます」即答する私であった。さすが元上司である。私の沈黙の原因はこの際関係なかった。佐々木さんはすべてお見通しなのであった。




セッションではLuceneの話をするが、内容は未定である。あまり準備時間も取れないため、書籍の内容の一部を話したりデモをしたり、という感じになるかもしれない。しかし、参加費無料でビールもつく(こればっか)この集会を見逃す手はないだろう。

プログラムは今日の段階で未発表なので詳細はわからないが、当日午後東京の虎ノ門に行って直帰できる方は、参加を検討するとよいだろう。
| 関口宏司 | Luceneセミナー | 00:16 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
    123
45678910
11121314151617
18192021222324
252627282930 
<< June 2006 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS