関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< Lucene 2.4.0 のリリース | main | (メモ) XTF - 高速ハイライトツール? >>
(アイディア)逆ページランク
経済アナリスト 森永 卓郎氏のコラム「役所のマインドコントロールから脱け出せ!」を読んだ。これによると財務省のホームページでは、同省の都合の悪い記述は脚注などで小さい文字で表示されているらしい。

そこで思いついたのがタイトルのアイディアだ。私はかねてより官公庁や自治体などのホームページを横断検索するデモを作りたいと思って(2年以上経つがなかなか着手できないでいるのだが、それはこの際どうでもよい)いる。そのサイトで「小さい文字ほど重要である」「階層が深いほど重要である」「被リンクが少ないほど重要である」とみなす、その名も「逆ページランク」というのを実装してみてはどうだろう。

官公庁のホームページでは国民に知らせたくない重要な情報ほど文字を小さくしているようなので、この冗談のようなアイディアは案外いいセン行くのではないか。

この方法によると、<H1>よりも<H4>が、<B>よりも通常文字列が、通常文字列よりも<font size="-1">がより国民にとって重要になってくるのであり、高いスコアを与えて検索結果の上位にランキングさせるのである。なんじゃそりゃ。
| 関口宏司 | Luceneスコアリング | 22:17 | comments(3) | trackbacks(0) |
こんにちは。
大学で情報検索について研究しながら本(lucene入門)を買って少しずつ勉強しているものです。luceneのスコア計算(Similarity class)について質問があります。
本によると、Luceneのスコア計算はベクトルの余弦の計算を基本にしていると書かれていてtf・idf^2の計算までは数学的に理解しました。検索語ベクトルの表現においてtfはどうせ1なので、そのままtfであって、idfによって重みつけられ、他の文書との余弦計算を行うためにidf^2になるというところまでは理解できました。
しかし、getBoost(t in q)の検索語に重みをつけるところが数学的によく理解ができません(計算式でのシグマ(tf・idf^2・getBoost(t in q)・lengthNorm(t.field in d))の部分)。スコア計算の説明だけみると理解ができますが、数学的に理解ができません。
余弦の計算を行うために分子は検索語ベクトルと文書ベクトルの内積をluceneでも計算していると思うのですが、getBoost(t in q)は一体、どのように理解すればよいのでしょうか?スカラー倍でもないと思いますが。。。よく理解ができなく質問をします。
どうか、アドバイスお願いします。

| 松本 | 2008/10/29 11:25 PM |
こんばんは。

> 大学で情報検索について研究しながら本(lucene入門)を買って少しずつ勉強しているものです。

恐縮です。

私もすべて理解している訳ではなく、・・・スコア計算はそれぞれの検索エンジンが特色を出して計算すればよく、LuceneではSimilarityクラスできちんと説明されているので、数学的な面よりもそれぞれの項目を私の理解とLuceneのメーリングリストでDoug Cutting氏の断片的な発言を総合して記述しました。

今度Luceneに注目している検索エンジン屋さんにお会いするので、意見を聞いてみます。
| 関口 | 2008/10/29 11:42 PM |
ぜひ、お願いします。^^
| 松本 | 2008/10/30 5:20 PM |









http://lucene.jugem.jp/trackback/268
+ Solrによるブログ内検索
+ PROFILE
 123456
78910111213
14151617181920
21222324252627
28      
<< February 2010 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS