2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2012.06.16 Saturday
Lucene/Solr インデックスの中を覗いてジップの法則を確認する
単語の出現頻度の順位nと出現確率P(n)の間には、ジップの法則(Zipf's Law)と呼ばれる次の経験則が成り立つ:
P(n) = c / n ジップは英語の場合、c=0.1であると推定している。 単語の出現頻度などはLucene/Solrのインデックスを調べれば簡単にわかるので、早速手元のインデックス(歴代の内閣総理大臣の所信表明演説が登録されている)でやってみたところ、下図のように見事に直線上に並んだ。ただし、c=0.162とした: プログラムは以下の通り。試すときは、INDEXとFのString定数に、それぞれインデックスの絶対パスと、調べる対象のフィールド名を指定する。 public final class TestZipfsLaw { final static String INDEX = "/path/to/index"; final static String F = "fieldNameToBeChecked"; public static void main(String[] args) throws Exception { Directory dir = getDir(); List 実行すると、標準出力に次のように2列の数値が表示されるので、これをExcelに貼り付けグラフを表示すると、上手のようになる(はず)。2列の数値の1列目は単語の出現頻度の順位で、2列目は出現回数である。 1, 4483 2, 2415 3, 1239 4, 1228 5, 1091 : : 元ヤフー社員も大満足のロンウイットのSolrトレーニング・・・受講者インタビュー記事 Solr 3.6 7月 トレーニング受講者募集中 |
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |