関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< FSTとGraphViz | main | Lucene/Solr インデックスの中を覗いてジップの法則を確認する >>
Solr新機能:ツッコミ検索とは?
最近はこちらのブログ投稿がご無沙汰である。なぜならJAISTに入学し、Twitterも始めたせいもある。

Twitterは長い文章を考えなくていいから楽だ。しかし、これから述べようと思っているまとまった文章などは量的にTwitterでは無理なので、必然的にブログということになる。何を述べるかというと、最近いわゆる「もしかして検索」という機能を実装し、そこでいろいろ思い巡らせたことについてである。もしかして検索というのは、ユーザがたとえば「パートな湿布」というキーボードを打ち損じた(または変換し損ねた)キーワードで検索したときに、検索結果画面で「もしかして:パートナーシップ」などと正解と思われるキーワードを表示する機能である。そしてただ単に正解と思われるキーワードを表示するだけではなくて、キーワードにリンクを貼って、もしそれが本当に正解キーワードであったならユーザがクリックするだけで正解キーワードですぐさま再検索できるようにする、大変優れた機能である:

[プレスリリース] パートな湿布?いいえ、パートナーシップでした 。〜もしかして検索が可能なSolrサブスクリプションの新版を発表

(詳細記事)日本語「もしかして」検索について

ところで「もしかして検索」というのはGoogleで表示される文言「もしかして○○」からとって命名したものであるが、(上記2つめの記事にもあるように)Yahoo!では「○○ではありませんか?」となり、もしこちらから命名するとなると「ではありませんか?検索」となる。ただ、私の記憶が正しければ、この種の機能はGoogleが早かったような気がするので、以降ではGoogleに敬意を表して「もしかして検索」あるいは省略して「もしかして」と呼ぶことにする。

そして私がまず気がつくのは、Googleの姿勢の低さだ。あのGoogleが「もしかして」である。本当はかなりの確信を持ってリンクを提示しているはずなのだが、あくまでも低姿勢に「もしかして」である。しかし、低姿勢さはYahoo!も負けてはいない。「ではありませんか?」だ。「もしかして」よりも謙虚さを感じる。そこまで自信がないのなら提示しなければいいのに、あくまでもYahoo!はいうのだった。「ではありませんか?」と。

しかし、両社の低姿勢ぶりは私は実はうなずけるところでもある。なぜならこれは確率の問題だからだ(最近私は確率の勉強をしているのだった)。なので絶対ということはなく、「もしかして」ということになる。やろうと思えばおそらく、「何パーセントの確率で○○です」と提示できるはずである。

ロンウイットのもしかしての方法はどうかというと、確率ではなくSolrのSpellCheckComponentを使っているので、もう少し原始的だ。しかしインデックス内の正解データを使っているので、こちらも高い精度が得られている。しかし私も日頃から謙虚でありたいと考える人間であり、ロンウイットはGoogleやYahoo!の足元にも及ばない会社なので、検索結果画面に表示する文言は両社よりももっと謙虚であってしかるべきである。

たとえば、こんなのはどうだろう:

「まちがってたら申し訳ないんですが、ひょっとしたら○○ではありませんか」

相当自信がなさそうなのだった。これくらいであればもし間違っていたとしてもユーザから文句は出ないだろう。しかし、これでもまだ心配な場合は、どうすればいいか。

究極の方法は「あえて何も言わない」だ。ユーザが間違ったキーワードで検索を行う。しかし、こちらも絶対の自信がないのであえて何も言わない。つまりこうだ:

「・・・・・・」

するとユーザは検索結果一覧画面を見て、自らキーワードの打ち損じに気がつく。そして今度は落ち着いて正しいキーワードで検索し直すだろう。すると、Solrはようやく先ほどの自身がはじきだした正解キーワードと、ユーザが2回目に入れた正しいキーワードが等しいことを確認し、100%の確信を持って今度こそ検索結果画面に次のような文言を表示するのだった:

「ですよね〜。私もそう思ったんですけど、違うかもしれないので黙ってたんですけど、やっぱり打ち損じでしたね〜」

しかしこれでは意味がわからないし、CPUの無駄遣いであり、ユーザから別の文句も出そうだ。

逆はどうだろう。ロンウイットはこれでも一応ベンチャーの気概を忘れてはいない。そこであえて100%、いや、120%の確信を持って正解と思われるキーワードを提示したいと考えるのだった。つまりこうだ:

「○○だろ!」

相当な自信がうかがえる。間違っていたとしても、この勢いがあればユーザはクリックしてしまうのではないか。また私は別のことにも気がついたのだった。これはある意味、ユーザのボケ(キーワードの打ち損じ)に対するSolrのツッコミといってもよいだろう。私はこれを「ツッコミ検索」と呼ぶことにしたい。はずれても笑いがとれればそれでいい。日本のお笑いの精神がそこには垣間見えるのだった。

しかし、まじめな話、デモデータ(歴代の内閣総理大臣の所信表明演説のテキストデータを利用)を使った次の実例を見れば、相当イイセンいっていると、読者は納得してくれるに違いない:

ボケツッコミ
笑止高齢化「少子高齢化」だろ!
いんたーねっt「インターネット」だろ!
しゃ皆保険「社会保険」だろ!
滑稽銀「国会議員」だろ!
partner湿布「パートナーシップ」だろ!
滅入るマガジン リーマン「メールマガジン サラリーマン」だろ!


日本の検索にもっと笑いを。ガンバレ日本!なんかわからないがオリンピックイヤーなので言ってみた。7期目に突入したロンウイットを、相変わらずこんな感じではありますが、今後ともどうぞよろしくお願い申し上げます。



元ヤフー社員も大満足のロンウイットのSolrトレーニング・・・受講者インタビュー記事
Solr 3.6 6月 トレーニング受講者募集中

| 関口宏司 | Solr | 02:12 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/466
+ Solrによるブログ内検索
+ PROFILE
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< August 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS