関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< Lucene/Solr のサイトが生まれ変わりました | main | ConcurrentMergeSchedulerのデッドロック問題とJava Puzzle >>
soleami - Apache Solr のクエリログ可視化サービス
soleami (ソレミ)というSolrのクエリログを可視化するサービスを開始した。

soleami.com

soleamiという名前は、近所の本屋の辞書コーナーを2時間ほどうろついてひねり出したものである。由来はフランス語の“ami du soleil”(太陽の友人)からとった造語である。Solrはいうまでもなくソーラーパネルやソーラーシステムのソーラー、つまり太陽から来ている(Solrのロゴも太陽を模している)。その友達のように常にそばに置いて使ってもらいたい、というところから命名した。ちなみに、"soleil"(ソレイユ)のところは日本でも「シルク・ドゥ・ソレイユ」という名前が有名だ。

なぜフランス語かというと、ロンウイットもフランス語だからだ。ロンウイットはうちの近所の丸八通りから、「丸」も「八」も縁起がいいのでとってきたものであり、「ロン(丸)」「ウイット(八)」である。じゃあなぜロンウイットはフランス語なのか、というのは聞かないで欲しい。こちらも本屋の辞書コーナーを3時間くらいうろついて命名したと思う。あれは今から6年前のことであった。3時間うろつく前には3週間くらい悩んだ記憶がある。苦しんだ様子は以下のスライドに詳しい。

プレ・ロンウイット・ネーミング・ストーリー



さてsoleamiであるが、これはSolrのクエリログを可視化するサービスである。TomcatにSolrをデプロイして運用しているサイトがほとんどだと思うが、Tomcatが出力するcatalina.outファイルをsoleamiにアップロードするだけで検索キーワードのトレンド(季節変動など)やいわゆる「0件ヒット」の発生をビジュアルにみることができる。

世の中Hadoopを使ってアクセスログ(クリックログ)を解析するのがはやっているが、一方でクエリログは置き去りにされていないだろうか。クエリログは検索システムのユーザ(サイト訪問者)のニーズのリストともいえ、サイト管理者・運営会社の立場からみれば、ぜひ分析してサイトの改善に役立てるべきデータである。

しかし大手の会社でもなければ、なかなかクエリログを分析するまで手が回らないのが実情だ。たとえばcatalina.outをExcelやawk/sedなどで処理しようとしても結構大変である。結局、catalina.outはディスク容量を圧迫するので、保存期間を過ぎると捨てられてしまう。これは非常にもったいない話ではないだろうか。

また大手の会社でもアクセスログの解析で手一杯で、クエリログまではまだまだ、というところも多い。またクエリログとなるとどこから手をつけていいかわからない、という意見もある。そういうときは、soleamiに過去(12ヶ月前までさかのぼって可視化できる)から現在のクエリログをアップロードし、おおよその見当をつけるといいだろう。 季節変動を示す検索キーワードを見つけたり、何度も「0件ヒット」を起こしているクエリを特定し、サイトの改善に役立てることができるし、自社でHadoopなどでさらに深掘りして分析する際の方向性のあたりをつけることができる。

Tomcat上でSolrをすでに運用しているサイトはcatalina.outファイルがTomcatのlogsディレクトリにできているだろう。これをsoleamiにアップロードするだけでチャートが表示できる。

soleami-chart-TOP10

soleami-list-TREND1000

TomcatもSolrでさえもまだ・・・という方は、以下の記事でTomcatとSolrをダウンロードする最初のところから解説しているので、読んでクエリログを大いに活用していただきたい。

soleami (ソレミ)の使い方〜Solrの立ち上げからログの可視化まで〜
http://www.rondhuit.com/soleami-howto.html



あの米Clouderaディレクターも参加したロンウイットのSolrトレーニング・・・受講者インタビュー記事
Solr 3.5 3月 トレーニング受講者募集中

| 関口宏司 | Solr | 01:22 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/463
+ Solrによるブログ内検索
+ PROFILE
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS