2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2006.02.21 Tuesday
用語集 A--Z
Inverted Index
=>転置索引 precision =>精度または適合率 recall =>再現率 relevance ratio =>適合率 2006.02.21 Tuesday
用語集 さ--と
再現率
検索システムの評価尺度のひとつで、検索結果中の検索漏れの少なさを表す。 シソーラス 意味が同じ単語同士をグループにまとめた辞書。 順次検索方式 検索対象ドキュメントの前処理を行わず、UNIXのgrepコマンドのようにテキストの先頭から順次文字列を検索し、検索対象テキストと一致する部分文字列を検出する全文検索方式の一種。検索のたびに毎回ドキュメントのすべてを調べるので、大量ドキュメントに対して多数のユーザから検索リクエストがある場合はかなり効率が悪い。 ステミング 単語の語尾処理を行い、基本の語幹に単語を変換する正規化の一種。たとえば、"went"、"gone"、"going"などを"go"に変換する。LuceneではAnalyzerが担当する。 ストップワード 英語でいえば"is"、"in"、"on"、"not"、"a"、"the"のような機能語。これらの単語はどのドキュメントにも共通して頻繁に使われるために特定のドキュメントを識別する力が弱く、インデックスに含めない。「ストップワード」を取り除いた単語を使ってインデックスを作成することで、インデックスのサイズを小さく抑え効率的に検索することが可能となる。反面、「ストップワード」はインデックスに登録されないために、「ストップワード」を検索語句に使用しても、検索の対象とならなくなってしまう。 精度 検索システムの評価尺度である「適合率」の別称。 全文検索 検索対象ドキュメントの「全文」のテキストを検索対象にする検索方法や検索システムのこと。これは全文検索でない「非全文型検索」を考えるとわかりやすいかもしれない。「非全文型検索」の典型的な例は、書籍の索引(インデックス)を使って検索したいキーワードがどのページに載っているかを探す行為に似ている。書籍の索引に掲載されるキーワードは人手でキーワード抽出をして重要と思われるページをピックアップして整理しているので、キーワードに対して主観が入りながらも、高品質な索引が提供されていて、いわゆる「雑音」が少ない(キーワードに対して何千件もヒットする、ということがない)。それに対し「全文検索」は、機械的にテキストの全文を検索対象にする。そのため、大量のドキュメントを検索処理するのに適しているが、キーワードの抽出は人手による場合と比べて、品質的に問題がある場合もある。全文検索には、あらかじめ検索のための索引を作る転置索引方式と、索引を使わない順次検索方式がある。 適合率 検索システムの評価尺度のひとつで、検索結果中のノイズの少なさを表す。 転置索引 検索対象ドキュメントのテキストからキーワードを抽出し、キーワードから当該ドキュメントを引けるように整理した表。 転置索引方式 転置索引を用いた全文検索方式の一種。検索のために索引表を用いるので、索引の更新頻度によっては実際のドキュメントの内容と検索結果に差異が生じる可能性があるが、大規模検索(大量ドキュメント+多数のユーザ)に向いている。 トークン テキスト文字列から分割された単語。LuceneではAnalyzerが単語分割を担当する。 |
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |