2008.04.08 Tuesday
類義語検索とオントロジー
LuceneやSolrを使った類義語検索では類義語辞書が必要となるが、弊社がコンサルする場合、これは今のところ顧客自身に用意してもらっている。会社名など(「松下電器産業」と「パナソニック」など)汎用的なものもあるが、それよりも顧客の事業ドメイン独特の専門用語とその略語などをサポートすることが重要な場合が多く、広くカバーされた汎用的な類義語辞書が強く求められる場面にはあまり遭遇しない。企業内検索では社内・部内専門用語の略語で検索したとき、その用語の(略語ではなく)正式名称を含むWordファイルがヒットしてその部分がハイライトされようものなら、それだけで結構喜んでもらえるものだ。
類義語検索を発展させたものとして、オントロジーを使った検索というものがある。類義語辞書では登録された用語はフラットであるが、オントロジーでは用語の概念を考慮した階層構造を形成する。たとえば、「動物」「爬虫類」「哺乳類」「犬」「猫」という用語をオントロジー辞書に登録するとした場合、次のようになる:
そうしておいて「犬」で検索されたときに適当な条件に符合した場合は「哺乳類」や「動物」などにキーワードを拡大して検索したり、場合によってはその兄弟の「猫」というキーワードを使って検索する、ということをおこなう。
オントロジーを使った検索はそれなりに可能性を感じさせるが、類義語辞書を作るよりもコストが高くなるのが難点だ。その割りに効果が定量的にわかりにくい(費用対効果がはっきりしない)。
類義語のソリューションはオントロジーほどエレガントではないものの、その効果は非常に大きい。
たとえば不動産屋のサイトで、「ペット可」「犬猫可」というような用語を含む賃貸物件の説明文が文書に含まれているとする。オントロジー辞書では「ペット」の下に「犬」と「猫」を配置することになるだろう。類義語ではもっと単純で:
と定義する。こうしておいて犬を飼える賃貸物件を探しているサイト訪問者が「犬」というキーワードで検索すると、「犬」の他「ペット」を含む物件が検索でき、「ペット」がハイライト表示される。もちろん、「猫」もハイライト表示されてしまうが、なにしろここは不動産屋の物件情報サイトだ。目くじらを立てて怒るユーザはいないだろう。これがペットショップのサイトや動物図鑑のサイトならまずいかもしれないが。しかしそもそもペットショップや動物図鑑サイトなら上記のような類義語定義はありえないだろう。
類義語機能は類義語を「展開」するだけでなく片方向にマッピングする「正規化」もある。こういった機能をうまく組み合わせれば案件ごとになんとか抜け道も見つけられるものだ。
類義語検索機能を導入することで、ユーザは似た用語を自分で捻出しながら何度も検索を繰り返すことなく探している文書にたどり着くことができるようになり、利便性が増してユーザのサイトへの信頼感を高める効果がある。まだ導入していないサイトは導入を検討してみるとよいだろう。
類義語検索を発展させたものとして、オントロジーを使った検索というものがある。類義語辞書では登録された用語はフラットであるが、オントロジーでは用語の概念を考慮した階層構造を形成する。たとえば、「動物」「爬虫類」「哺乳類」「犬」「猫」という用語をオントロジー辞書に登録するとした場合、次のようになる:
動物
|
+------------------+
| |
哺乳類 爬虫類
|
+-------------+
| |
犬 猫
そうしておいて「犬」で検索されたときに適当な条件に符合した場合は「哺乳類」や「動物」などにキーワードを拡大して検索したり、場合によってはその兄弟の「猫」というキーワードを使って検索する、ということをおこなう。
オントロジーを使った検索はそれなりに可能性を感じさせるが、類義語辞書を作るよりもコストが高くなるのが難点だ。その割りに効果が定量的にわかりにくい(費用対効果がはっきりしない)。
類義語のソリューションはオントロジーほどエレガントではないものの、その効果は非常に大きい。
たとえば不動産屋のサイトで、「ペット可」「犬猫可」というような用語を含む賃貸物件の説明文が文書に含まれているとする。オントロジー辞書では「ペット」の下に「犬」と「猫」を配置することになるだろう。類義語ではもっと単純で:
ペット, 犬, 猫
と定義する。こうしておいて犬を飼える賃貸物件を探しているサイト訪問者が「犬」というキーワードで検索すると、「犬」の他「ペット」を含む物件が検索でき、「ペット」がハイライト表示される。もちろん、「猫」もハイライト表示されてしまうが、なにしろここは不動産屋の物件情報サイトだ。目くじらを立てて怒るユーザはいないだろう。これがペットショップのサイトや動物図鑑のサイトならまずいかもしれないが。しかしそもそもペットショップや動物図鑑サイトなら上記のような類義語定義はありえないだろう。
類義語機能は類義語を「展開」するだけでなく片方向にマッピングする「正規化」もある。こういった機能をうまく組み合わせれば案件ごとになんとか抜け道も見つけられるものだ。
類義語検索機能を導入することで、ユーザは似た用語を自分で捻出しながら何度も検索を繰り返すことなく探している文書にたどり着くことができるようになり、利便性が増してユーザのサイトへの信頼感を高める効果がある。まだ導入していないサイトは導入を検討してみるとよいだろう。